由图灵奖得主Yoshua Bengio领衔、OECD与全球42家顶尖AI实验室联合撰写的《2026国际AI安全报告》于2月7日正式发布。相较2025年版覆盖偏见、隐私、版权等广泛议题,本年度报告显著收窄焦点,将全部分析锚定于‘新兴风险’(Emerging Risks)——即通用AI能力前沿的滥用风险与系统性网络安全威胁。报告首次引入OECD情境化建模框架,基于算力、算法效率、数据规模三大变量,推演出2030年前AI能力发展的四种可能路径:‘进展停滞’‘进展放缓’‘持续进展’与‘加速发展’。其中‘加速发展’情景下,AI参与自身研发形成正反馈闭环,或将导致人类监管能力出现代际落差,该路径概率虽仅为12%,但已被列为最高优先级预警场景。

报告最严峻的结论来自实证数据:AI驱动的网络攻击已从理论威胁变为现实常态。过去一年,国家级APT组织利用AI自动化完成漏洞挖掘(PoC生成速度提升17倍)、鱼叉钓鱼邮件定制(语义伪装成功率超93%)、勒索软件加密策略动态优化(绕过沙箱检测率提升至89%)等关键环节。MITRE ATT&CK框架新增的14个AI专属战术中,已有11个被实战验证。更值得警惕的是‘能力参差性’(Jagged Capabilities)现象——当前顶级AI系统在奥数竞赛、法律考试中得分超90%,却在简单空间推理(如‘杯子倒置后水是否流出’)与基础计数任务中错误率高达34%。这种‘专家级弱智’特性使其极易被诱导生成高可信度错误输出,已在金融风控模型误判、医疗影像辅助诊断漏诊等事件中造成实际损失。

报告提出三级治理响应机制:技术层强制部署‘能力校准模块’,要求所有商用大模型在输出前完成多维度一致性验证;部署层推行‘风险分级披露制度’,依据模型物理交互能力、自主规划深度等指标划定L1–L4安全等级并公示;治理层推动成立‘全球AI前沿风险监测中心’(GAIMON),整合各国网络威胁情报与模型行为日志,实现对新兴攻击模式的分钟级感知与协同阻断。该报告已被欧盟委员会、中国国家网信办列为2026年AI治理白皮书核心参考依据。