在人工智能领域,一个关于大模型发展的新趋势正在悄然兴起。长久以来,大模型的性能提升主要依赖于模型参数的增加和数据集规模的扩大,这一规律被称为规模定律。然而,随着开源数据挖掘的逐渐枯竭和算力资源的紧张,规模定律的有效性正面临挑战。
近日,在清华大学基础模型2025学术年会上,清华大学计算机科学与技术系副教授刘知远提出了一种新的大模型发展规律——“密度法则”。他指出,大模型的知识密度将每100天翻一番,这一规律预示着模型将朝着参数小型化、成本普惠的方向发展。
“密度法则”与集成电路行业的摩尔定律有着异曲同工之妙。摩尔定律指出,芯片电路密度(即芯片计算单元数量与芯片面积的比值)每18个月翻一倍。而刘知远提出的“密度法则”则表明,大模型的知识密度将以更快的速度增长。
基于“密度法则”,刘知远提出了四条推论。首先,实现特定AI水平的模型参数将呈指数下降,模型推理速度也将大幅提升。例如,近期发布的2.4B参数规模的MiniCPM-1模型,其能力与之前发布的7B参数规模的Mistral模型相当,但参数量却大幅减少。
其次,模型推理开销将随时间呈指数级下降,这将使得更多应用能够受益于AI技术的发展。同时,模型训练开销也将迅速降低,使得高质量的大模型更加易于制备。
第三,大模型的能力密度将呈加速增强趋势。在ChatGPT发布之前,大模型的能力密度增长较为缓慢,但ChatGPT发布后,这一趋势明显加速。
最后,随着摩尔定律的持续作用,端侧芯片的承载能力不断增强。这意味着,未来将有更多能力水平高的大模型能够被装载到消费级计算设备上,从而彰显端侧AI的能力。
然而,将运行在云端的PB级知识规模浓缩到GB级的小模型参数中,并非易事。这需要解决海量互联网数据的治理问题,并利用数据背后的知识实现模型的高效学习。因此,如何科学化制备大模型,将成为未来大模型构建的关键课题。
在过去几年中,一系列技术创新推动了大模型的发展。从自监督预训练技术到有监督的微调技术,再到强化学习技术,这些创新使得大模型具备了掌握人类知识、理解人类意图和深度思考的能力。然而,智能算法的创新和演进远未收敛,未来人工智能迈向通用人工智能(AGI)的过程中,还需要不断拓展能力树。
刘知远认为,人工智能在结束个体的智能涌现之后,将通过多智能体群聚,迎来群体智能的第二次涌现。这将为人工智能的发展带来新的机遇和挑战。