百度近日宣布了一项震撼业界的消息:正式向公众开源其文心大模型4.5系列,此举犹如在人工智能领域投掷了一枚“重磅炸弹”。
此次开源行动,百度慷慨地分享了包括47B和3B激活参数的混合专家(MoE)模型,以及0.3B参数的稠密型模型在内的10款模型。更为难得的是,百度不仅开放了预训练权重,还提供了推理代码,展现了其满满的诚意。目前,这些模型已在飞桨星河社区、Hugging Face等多个平台上架,供开发者下载和使用。百度智能云千帆大模型平台也提供了相应的API服务,进一步降低了使用门槛。
事实上,早在今年2月,百度就已预告了文心大模型4.5系列的推出计划,并明确宣布将于6月30日起正式开源。不过,此次开源的列表中并未包含升级版的文心大模型4.5 Turbo系列,这不禁让一些期待已久的开发者略感遗憾。
消息发布后,开发者们反响热烈。Reddit上的开发者们纷纷点赞,认为小参数版本对于内存受限的配置来说是一大福音。有人甚至认为,300B参数的模型能与某些671B参数的顶尖模型一较高下,而21B参数的模型也能与阿里的Qwen 30B模型相抗衡。更有开发者惊喜地发现,28B参数的模型在基础文本能力的基础上增加了视觉功能,直呼这一创新“太酷了”。尽管如此,大家仍然热切期盼着文心大模型4.5 Turbo系列的开源,对高性能模型的渴望溢于言表。
文心大模型4.5系列自3月16日发布以来,便以其卓越的实力赢得了广泛关注。作为百度自研的新一代原生多模态基础大模型,它在多个测试集上的表现甚至超越了GPT-4。文心大模型4.5对图片的理解能力尤为出色,无论是照片、电影截图、网络梗图、漫画还是图标,都能轻松应对。同时,它还能精准把握音视频中的场景、画面、人物等特征,在生成名人、物品等方面也表现得极为真实。这些模型都是基于飞桨深度学习框架进行高效训练、推理和部署的,模型FLOPs利用率高达47%,效率惊人。实验结果显示,该系列模型在多个文本和多模态基准测试中均达到了顶尖水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现卓越。
百度创始人李彦宏曾在文章中提到,原生多模态大模型通过统一架构实现多模态数据的原生级融合,是迈向通用人工智能(AGI)的重要一步。文心大模型4.5系列的成功,无疑为这一观点提供了有力的佐证。
文心大模型4.5系列之所以能够取得如此辉煌的成就,背后离不开三大关键创新。首先,它采用了多模态异构MoE预训练方法,通过文本和视觉模态的联合训练,捕捉多模态信息的细微差别,从而提升了各种任务的性能。百度研究人员为此设计了异构MoE结构,并引入了模态隔离路由、路由器正交损失和多模态标记平衡损失等技术手段,让两种模态相互强化,取得了显著的训练效果。
其次,百度在基础设施方面进行了大量创新,提出了异构混合并行和分层负载均衡策略,实现了ERNIE 4.5模型的高效训练。通过节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法等技术的应用,预训练吞吐量得到了大幅提升。在推理方面,百度同样不遗余力,采用了多专家并行协作方法和卷积码量化算法,实现了4位/2位无损量化,并引入了具有动态角色切换的PD分解技术,进一步提升了推理性能。
最后,为了满足实际应用的多样化需求,百度针对特定模态对预训练模型的变体进行了微调。大模型针对通用语言理解和生成进行了优化,而VLM则专注于视觉语言理解,并支持思考和非思考模式。每个模型都采用了改进的强化学习方法进行后训练,以确保其在实际应用中的表现。在视觉-语言模型的微调阶段,研究人员围绕图像理解、任务定向微调和多模态思路推理三大核心能力进行了系统性的数据构建和训练策略优化,并利用可验证奖励强化学习(RLVR)技术提升了模型的对齐和性能。
对于百度此次开源行动,南加州大学计算机科学副教授、三星年度人工智能研究员Sean Ren给予了高度评价。他认为,每当一个大型实验室开源一个强大的模型时,都会提高整个行业的标准,并给闭源模型的提供商带来压力。百度作为国内最先入局大模型研发的巨头之一,已经打造出了丰富的模型系列,并持续推动模型数量和类型的增加。文心大模型的日均调用量更是增长了33倍,充分证明了其市场影响力和应用价值。Sean Ren还指出,虽然消费者可能不太关心模型代码是否开源,但更低的成本、更好的性能以及对其语言或地区的支持等好处往往来自开源模型。这将使开发人员和研究人员能够更自由地迭代、定制和部署模型,进一步推动人工智能技术的发展。