谷歌苹果顶尖华人科学家携手创业,聚焦视觉推理,探索AGI新路径

   时间:2026-01-12 01:59 来源:快讯作者:新智元

硅谷的AI创业版图迎来新变量:两位分别来自谷歌与苹果的顶尖科学家正联手打造一家名为Elorian的初创企业,其种子轮融资目标直指5000万美元,核心攻关方向直指下一代大模型的关键技术——视觉推理。

这家尚未正式亮相的公司,已因创始团队的背景引发资本圈高度关注。联合创始人Andrew Dai在谷歌DeepMind效力14年,曾主导Gemini模型预训练数据工作,其学术履历中与Jeff Dean、Quoc V. Le等AI泰斗合著的多篇论文,被视为GPT系列模型的重要理论基石。另一位联合创始人Yinfei Yang则刚从苹果离职,此前作为首席研究科学家参与自研AI模型开发,在图像-文本共嵌入领域拥有多项专利技术。

视觉推理技术被业界视为通向通用人工智能(AGI)的关键跳板。不同于当前主流模型通过文本标签理解图像的"补丁式"方案,Elorian计划构建原生多模态架构,使模型能直接通过视觉感知物理世界的逻辑关系。Andrew Dai在内部研讨中举例:"未来机器人不应仅识别'红色按钮',更要理解按下按钮将引发何种机械连锁反应。"

资本对"谷歌系+苹果系"的组合表现出极大热情。据知情人士透露,前CRV合伙人Max Gazor创立的Striker Venture Partners正领投本轮融资,该基金去年10月成立后尚未有重大投资披露。投资界普遍认为,这种技术基因的混合可能催生独特优势:谷歌背景提供大规模训练基础设施经验,苹果背景则带来产品化落地思维。

当前大模型竞争已进入新阶段。OpenAI凭借ChatGPT赢得文本生成先机后,谷歌Gemini、Anthropic Claude等模型正加速补足多模态能力。Elorian选择从视觉推理切入,试图在垂直场景建立技术壁垒。其潜在应用场景包括:自主操作复杂软件系统的AI智能体、能理解三维空间的工业机器人、可处理多模态法律文件的智能助理等。

技术实现路径上,团队正攻关三大挑战:如何构建跨模态的统一表征空间、如何设计符合人类认知的推理架构、如何解决视觉数据中的长尾问题。Yinfei Yang在学术会议中透露,其团队已开发出新型注意力机制,可使模型在视觉问答任务中减少37%的错误率。

这场创业潮折射出硅谷人才流动的新趋势。据LinkedIn数据,2023年已有超过200名谷歌AI研究员离职创业,其中15%选择多模态方向。投资人开始将"团队血统"作为重要评估指标,认为经历过完整技术周期的资深研究者更具突破可能性。正如某风投机构合伙人所言:"在算力军备竞赛中,真正稀缺的是能定义下一代技术范式的洞察力。"

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报