在ISC.AI 2026大会上,360集团首席科学家、集团高级副总裁潘剑锋提出,AI漏洞挖掘技术已从备受质疑发展到令安全人员感到压力的新阶段。他指出,这种转变并非预示着安全从业者的职业危机,而是整个行业迈向更高层次发展的契机。针对智能体在安全领域面临的天然短板,他创新性地提出了“驾驭AI不确定性”的安全治理新模式。
潘剑锋认为,传统安全面临的挑战已超越攻击手段数量和速度的增加,更深层次的变革源于计算逻辑的转变。传统软件基于确定性计算构建,人类将复杂多变的世界抽象为可计算的模型,以适应机器的运行方式。然而,大模型的出现使计算从确定性向不确定性转变,机器开始具备理解人类意图的能力,能够直接处理真实世界中模糊、开放且充满变化的任务。
这种不确定性赋予了AI强大的推理、创造和复杂任务处理能力,但同时也成为新型安全风险的源头。即使面对相同的任务输入,智能体可能因理解差异、推理路径不同或行动结果不一致而产生不可预测的行为。潘剑锋将这种不确定性分为外部和内部两个维度:外部风险源于攻击者通过隐蔽方式植入恶意指令,而内部风险则与大模型依赖统计规律生成结果、缺乏对现实世界的完整认知有关。
他进一步解释,攻击者无需直接下达明显恶意指令,而是将意图隐藏在用户输入、系统提示或工具返回信息中。大模型可能“解读”这些隐藏指令,导致模型注入或指令覆盖等安全问题。同时,大模型在生成结果时可能产生幻觉,例如虚构不存在的实体或错误认知事件顺序。当智能体进行连续推理、调用工具或与其他智能体协作时,单个判断错误可能沿任务链放大,引发严重后果。
针对这些挑战,潘剑锋提出,智能体时代的安全目标应从“防御确定威胁”转向“管控不确定性”。360集团据此构建了覆盖输入、推理和执行三个层级的安全治理框架:在输入层,通过恶意意图识别引擎检测隐藏攻击指令;在推理层,利用世界认知模型为大模型提供决策锚点,减少幻觉和错误判断;在执行层,借助环境孪生沙箱限制智能体的行动范围,实时监控工具调用、数据访问和系统操作。
在输入层的安全方案中,360采用“以模治模”策略,依托长期积累的搜索、安全攻防和监管合规数据构建专项训练模型。这些数据资源形成了一般安全厂商难以复制的语料优势。实测表明,接入360恶意意图识别引擎后,开源大模型的整体安全性可提升10%至30%。
推理层的世界认知模型通过提供对世界内在机制的理解和未来状态预测,为大模型的推理过程设置约束条件。该模型旨在从根源上抑制幻觉产生,确保智能体在处理复杂任务时保持逻辑一致性。执行层的环境孪生沙箱则通过模拟真实环境,在智能体行动前检测潜在风险,并在出现异常时立即拦截并回滚操作。
对于智能体安全市场的未来格局,潘剑锋预测,这项技术将成为每个智能体的基础配置,但不会由单一厂商垄断。市场结构可能类似于手机行业,既有占据主导地位的大型企业,也存在服务于细分领域的专业厂商。他强调,尽管AI模型能力持续增强,但安全领域仍需专业攻防经验和行业知识支撑,AI的发展正在重新定义安全行业的技术门槛。














