在AI领域,一系列创新协议的推出正逐步塑造着未来应用生态的面貌。继去年12月Anthropic公司的MCP协议和上月Google发布的A2A协议后,又一重要协议——AG-UI协议,正式进入公众视野,为AI应用生态的发展补上了关键一环。
近年来,基础大模型的训练逐渐呈现出寡头化的趋势,有能力且有意愿投入其中的大厂寥寥可数,创业公司更是屈指可数。尽管AI前景被广泛看好,但真正的机会更多聚焦于模型的应用层面,而非研发。
MCP与A2A协议,作为AI应用生态的基础设施,各自扮演着不可或缺的角色。它们共同构建了一个围绕用户、Agent(智能体)和外部世界的互动框架。然而,在Agent与外部世界、Agent之间实现互联互通后,用户与Agent之间的连接问题仍然悬而未决。
AG-UI协议的诞生,正是为了填补这一空白。它专注于规范Agent与前端界面之间的连接、交流和互动方式,为AI应用生态的繁荣提供了最后一块必要的协议拼图。
在深入探讨AG-UI之前,让我们先回顾一下Agent的概念。Agent,在国内常被翻译为智能体,但其本质更接近于英文原意——代理人。它们接受授权,代替用户、公司或组织完成特定任务,如房屋中介替房主出租或出售房屋。
AI Agent同样具备这种能力,它们能够主动自觉地采取行动,完成分析、获取信息、调用工具、整合响应等复杂过程。例如,最近推出的Lovart设计Agent,能够根据用户提示自动生成广告片,大大简化了设计流程。
理解了Agent的概念后,MCP和A2A协议的作用便显而易见。MCP协议解决了Agent调用外部工具时的参数传递问题,确保了不同模型和工具之间的兼容性。而A2A协议则规范了Agent之间的协作方式,使得不同功能的Agent能够高效地协同工作。
AG-UI协议的出现,解决了用户与Agent之间的连接问题。它嵌在应用和后端Agent之间,提供了一个标准范式和基础实现,使得前端应用能够高效地与后端Agent进行沟通。
AG-UI协议采用事件驱动的工作模式,每当后端Agent产生进度或状态变化时,就会触发一个事件信息,前端UI根据这些信息实时调整界面,向用户呈现最新的状态或进度。这种模式大大提升了用户体验,使得用户能够直观地看到Agent的工作过程。
具体来说,AG-UI协议提供了五类事件,包括生命周期事件、文本信息事件、工具调用事件、状态管理事件和特殊事件。这些事件涵盖了Agent工作的各个方面,确保了前端UI能够全面、准确地反映后端Agent的状态和进度。
以文本信息事件为例,当Agent生成并传递文本信息时,会依次触发TEXT_MESSAGE_START、TEXT_MESSAGE_CONTENT和TEXT_MESSAGE_END事件。这种机制使得前端UI能够分多次传送文本信息,而无需等待所有Token生成完毕。这大大提升了文本信息的传递效率,改善了用户体验。
AG-UI协议还提供了状态管理事件,包括STATE_SNAPSHOT和STATE_DELTA等。这些事件使得前端UI能够实时同步后端Agent的状态信息,确保用户能够随时掌握最新的任务进度和状态变化。
总的来说,AG-UI协议虽然谈不上突破性创新,但它统一了Agent与UI沟通的标准,并提供了最佳实践。随着AG-UI补齐最后一块协议拼图,AI应用生态的繁荣互通变得更加可期。未来,我们有望看到一个更加高效、协同、智能的AI应用生态。