在人工智能领域,OpenAI一直是备受瞩目的创新引擎,而其核心团队中有一位来自中国的工程师——翁家翌,近日在AI播客WhynotTV Podcast中分享了他从清华学子成长为OpenAI基础设施骨干的非凡经历,引发了广泛关注。
翁家翌在强化学习与后训练(Post-Training)系统开发中扮演着关键角色,深度参与了GPT-3.5、GPT-4、GPT-5等里程碑式模型的训练工作。他构建的基础设施系统不仅成为OpenAI内部大模型训练与迭代的核心支撑,更是ChatGPT持续进化的重要基石。在长达两个多小时的深度对话中,他首次公开了OpenAI内部Post-Training系统的构建逻辑,并剖析了公司持续产出爆款模型的成功要素。
从清华大学到OpenAI,翁家翌的职业轨迹充满传奇色彩。在清华求学期间,他就展现出与众不同的思维模式——将所有作业开源共享,打破信息壁垒,这一举动在校园内引发轰动。他坦言:"在清华,信息差常被视为生存资源,但我认为每个人都应平等获取知识。"这种理念贯穿了他的整个职业生涯。
大学时期,翁家翌的科研方向几经转折。从图形学到网络安全,再到最终专注的强化学习,他始终保持着对技术本质的探索热情。大二时,他与学长发现并修复了清华校园网的漏洞,使原本需要付费的成绩单下载服务变为免费,这一经历不仅锻炼了他的实战能力,更坚定了他用技术解决实际问题的信念。
在强化学习领域,翁家翌的探索之路并非一帆风顺。他回忆道,早期在一个上世纪90年代的游戏中训练神经网络时,常常需要"疯狂地用技巧防止训练崩掉",这种"炼丹"般的体验让他意识到工具层面的重要性。大四时,他决定转向基础设施开发,这一战略选择为他日后在OpenAI的工作奠定了基础。
2020年,面对多家科技巨头的橄榄枝,翁家翌最终选择了当时尚未广为人知的OpenAI。"我想体验世界最前沿的research是怎么做的",这个决定源于他对强化学习和系统能力的深刻认知。加入初期,他就参与了WebGPT后续项目,构建的RL训练系统在ChatGPT上线前已成为公司主力基础设施之一。
在OpenAI,翁家翌主导搭建了强化学习后训练阶段的核心基础设施,他的工作哲学是"把infra地基打好,让别人去玩"。他将自己定位为"卖铲子里最面向客户的那位",因为强化学习模块处于基础设施栈的最顶端。这种定位使他能够直接影响模型训练的效率和效果。
对于OpenAI持续推出爆款模型的现象,翁家翌归因于两个关键因素:高效率的迭代机制和技术领导层的深度参与。他透露,公司引入前Google工程负责人后,团队开始系统性提升工程效率,"RL本质上就是试错,试得越快越多,成功就越近"。而领导层对技术细节的强关注,确保了组织上下信息通畅,避免了"身子动了,脚没动"的执行困境。
在ChatGPT 3.5发布前,翁家翌就已在GPT-4上验证了RLHF流程的可行性。他回忆道,当时需要从头构建许多关键流程,最大的挑战在于模型效果的衡量标准不清晰。"你训练出很多个checkpoint,但不知道哪个更好",最终团队只能依赖"人机协同"的评估流程,通过内部员工交互测试来选出最佳版本。
面对外界对OpenAI"不开放"的批评,翁家翌有着深刻理解。他认为开源与商业可持续之间存在必然取舍:"你没法直接把最好的模型开源,因为公司要生存。"在他看来,OpenAI的"Open"战略体现在降低使用门槛上,比如提供免费版本和语音模式体验,这比直接开源模型权重更有实际意义。
对于AGI(通用人工智能)的定义,翁家翌认为不存在统一标准:"OpenAI内部15个人可能有20种定义方法。"他个人倾向于任务完成度的量化标准:"如果它能完成80%、90%我认为有意义的任务,那可能就是AGI了。"不过,他坦言当前模型尚无法完全接管他负责的代码修改工作,因为AI infra的数据集覆盖度仍然不足。
在组织管理层面,翁家翌观察到大型科技公司的共同挑战——规模带来的效率衰减。他提到DeepSeek的快速迭代曾引发OpenAI内部警觉,这也是公司决定重构Infra的原因:"Infra的迭代是OpenAI的生死线,我们早就不做为了刷榜而做的事了。"
展望未来,翁家翌提出了一个大胆设想:具有无限上下文记忆能力的AI Agent可能成为最合适的CEO。他认为,当前组织臃肿、信息共享不一致的问题源于人类认知的局限性,而AI可以突破这些限制,未来或许能承担起决策者的核心角色。
当被问及如果拥有预测未来的能力会如何时,这位技术理想主义者表现出罕见的谨慎:"这会导致所有价值体系的崩塌。"他选择专注于当下,"假装不知道世界是否确定",这种哲学思考折射出他对技术伦理的深刻反思。












