在人工智能大模型竞争日益激烈的当下,如何打造一款能精准“抓住”用户的爆款应用,成为众多开发者关注的焦点。当算力与性能不再是唯一优势,个性化技术成为关键突破口。传统推荐系统和对话模型依赖ID Embedding或特定参数表示用户偏好,这种“黑盒”范式存在不可解释、难以迁移等问题,限制了个性化发展。而大模型强大的推理与生成能力,为打破这一局限带来新契机,推动个性化从“黑盒”走向“白盒”。
近日,一支由蚂蚁与东北大学研究人员组成的团队,在大模型个性化领域取得重要进展,推出AlignXplore+。该成果实现文本化用户建模新范式,让复杂用户偏好既能被人理解,也能被机器解读,还具备良好扩展性与迁移性。传统个性化技术路线下,无论是静态用户向量还是为每个用户微调模型,本质都是不透明的“黑盒”。团队指出,这种表示方式存在两大痛点:一是不可解释性,用户无法理解、修改系统定义的“自己”,在注重隐私与控制权的AI Agent时代难以接受;二是无法迁移,向量和参数与特定模型架构深度绑定,推荐系统里的兴趣无法被聊天机器人复用,不同模型间的画像也难以通用。
基于这些思考,团队提出范式转移:摒弃隐空间向量,直接用自然语言归纳和推理解析用户偏好。这种基于文本的偏好归纳,人眼可读、可控,且完全解耦偏好推理与下游模型和任务。无论是推荐、写作还是闲聊,也无论是GPT、Llama还是Qwen,都能无缝“读懂”用户。
AlignXplore+具有三大核心特性,重构用户理解范式。其一,全域通用,打破数据孤岛。它不局限于单一交互形式,可处理真实世界中异构数据源,如社交网络发帖、电商平台点击、新闻流浏览记录等,能提炼高价值偏好摘要,拼凑完整用户全貌。其二,极致迁移,一次画像,处处通用。从单一任务到全能应用,它打破任务边界,将能力扩展到推荐和生成等广泛个性化应用;从特定模型到通用接口,实现跨模型迁移,生成的画像可被任何下游大模型直接读取使用。其三,实战适配,无惧真实世界数据噪点。真实世界交互流式且充满噪点,AlignXplore+无需每次都重新“阅读”用户所有历史,像人类记忆一样,基于旧摘要和新交互不断演化;面对“不完美信号”,如缺乏明确负反馈的数据和跨平台混合数据,仍能保持稳定推理能力,免受噪音干扰。
AlignXplore+是一个面向大模型个性化对齐的统一框架,核心目标是让大模型在不重训、不续训前提下持续理解用户。该框架包含两个主要阶段。SFT阶段通过“生成 - 验证 - 合并”流程创建高质量训练数据,确保对多个未来交互的准确预测,综合生成全面偏好总结。RL阶段采用课程剪枝策略,选取推理密集型样本,并通过累积奖励函数优化偏好总结,提升流式场景中的长期有效性。
在这个框架下,团队将“用户偏好学习”拆解为两个核心步骤。SFT阶段,为解决文本化偏好归纳“太泛”或“太偏”问题,设计一套流程,让模型基于多种可能未来交互行为反推当前偏好,并引入“行为验证”机制,确保生成的用户偏好能准确预测用户行为。RL阶段,仅有SFT不够,团队引入强化学习,设计课程剪枝和累积奖励两个关键机制。课程剪枝筛选出“难但可解”的高推理价值样本,避免模型在简单或不可解样本上空转;累积奖励让模型关注生成的用户偏好在未来持续交互中的可演化性,适应流式更新。
相较于现有方法,AlignXplore+在用户理解准确性、迁移能力和鲁棒性上实现全面升级。在效果上,8B参数的AlignXplore+在包含推荐、回复选择和回复生成的九大基准测试中,平均分数取得SOTA成绩,平均得分75.10%,绝对提升幅度比GPT - OSS - 20B高出4.2%,在复杂任务上表现尤为突出,验证显式推理比隐式向量更能捕捉深层意图。在迁移能力上,生成的用户偏好展现惊人Zero - shot迁移能力。跨任务迁移方面,对话任务中生成的偏好,直接指导新闻推荐依然有效;跨模型迁移方面,生成偏好给Qwen2.5 - 7B或GPT - OSS - 20B等不同下游模型使用,均能带来稳定性能提升,用户偏好不再被单一模型锁定。在鲁棒性上,真实场景往往只有用户点击记录(正样本),缺乏明确负反馈,实验表明,即便移除所有负样本,AlignXplore+依然保持显著性能优势,展现强大推理鲁棒性。用户真实历史行为跨越多种领域,实验结果显示,即使混合不同领域历史记录,AlignXplore+依然能精准捕捉多重兴趣,不像传统模型那样将兴趣“平均化”。













