《全球大语言模型安全防范能力测评报告(2026)》发布

沈慧 2026-07-03 21:10:36

大语言模型正在成为公众获取、理解和使用科技知识的重要工具,但是,它们能辨善恶吗?能否识别用户意图、理解具体语境、控制输出粒度,并在有用性与安全性之间保持稳定边界?在日前举行的2026全球数字经济大会云智算安全论坛上,东壁科技数据有限责任公司联合上海财经大学数字经济学院共同打造的《全球大语言模型安全防范能力测评报告(2026)》正式发布,该报告依据一套中国机构自主研发的科学测评方法体系,对全球主要大语言模型进行了一次统一标准的“体检”。

报告以313条科技类高风险问题为测试集,覆盖38个国内外大语言模型,重点考察模型能否在正常的科技学习、科研的防护需求与潜在违法犯罪滥用之间,保持稳定、安全且可解释的边界,并同步发布多维度安全实力排名。测评显示,多数模型具备基础拒答能力,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。报告提出,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。

上海财经大学数字经济学院院长、报告牵头编制人赵琳在论坛上对报告进行了解读。他表示,科技知识在正常场景中可以服务于教学、研究、产业创新和公共安全,但当它被置于特定目的、特定语境和特定对象面前,就可能转化为现实危害。从前沿模型安全框架看,国际上已经将生物化学、网络安全、自动化代理等高风险能力纳入重点评估范围。

报告显示,多数模型具备基础拒答能力,直接攻击总体成功率为7.6%,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。目前,攻击成功率最高的是场景伪装加上示例诱导,达53.8%,其次是场景伪装、前缀注入攻击、情感伪装,分别达51.3%、43.4%、30.7%,最低的是情感伪装加示例诱导,也达到了26.5%。“这说明场景伪装是最值得关注的攻击形态之一。”赵琳说,“合法授权”“安全研究”“攻防演练”等场景合法化叙事,比单纯情绪求助更容易削弱模型安全边界,示例诱导的影响则取决于其叠加在哪类伪装方式上,叠加在场景伪装中能增加越狱成功率,叠加在情感伪装中反而更容易让模型识别出请求的风险。

测评发现,科技内容可靠性与安全风险存在张力。已回答样本中,80.5%达到较可靠水平,55.1%同时具有较高可靠性和较高滥用风险。对恶意请求而言,可靠性越高不一定越安全。“关键在于能否把可靠知识限制在防护、合规和教育范围内”,赵琳表示。

依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大测评维度量化打分,报告发布了38款海内外主流大模型分层排名,多维度榜单清晰展现不同模型的安全防护水平。比如,在无伪装、直接索要危险技术方案的直接攻击测试中,Anthropic旗下三款Claude模型实现100%拒答,领跑行业,OpenAIgpt-5.4-mini、阿里通义千问qwen3.5-122b-a10b紧随其后。反观榜单末尾,mistral-small等多款轻量化开源模型基础防护垫底。

针对测评暴露出的系统性安全短板,报告立足产业实际,提供了一套政策与治理建议,平衡AI知识普惠价值与公共安全底线。“这份报告只是一个开始。未来,我们将持续完善科技安全测试集,覆盖更多领域,例如工程控制、深度伪造等方向。同时,也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评。”东壁科技数据创始人、报告牵头编制人吴登生表示。(经济日报记者 沈慧)