Bengio领衔发布2026国际AI安全报告:聚焦‘新兴风险’,OECD建模预测AI能力四大演进路径
2026年2月,由图灵奖得主Yoshua Bengio领衔的国际AI安全专家组发布《2026全球人工智能安全报告》,引发全球政策界与科技界高度关注。相较于2025年版报告覆盖偏见、环境、隐私等广泛议题,本年度报告显著收窄焦点,将‘新兴风险’(Emerging Risks)确立为唯一核心关切,直指通用人工智能(AGI)能力前沿的失控性滥用与AI赋能的国家级网络攻击两大现实威胁。报告明确指出:‘证据已经确凿’——过去一年,AI在自动发现零日漏洞、编写高隐蔽性恶意代码、绕过传统防火墙规则等方面的能力实现质的飞跃,多起由国家级APT组织主导的AI增强型网络行动已被联合国信息安全专家组实名记录。
报告最大方法论突破在于与OECD及全球预测研究机构合作,首次构建AI能力演进的‘四象限情境模型’。该模型基于计算能力(compute)、算法效率(algorithmic efficiency)与训练数据规模三大核心变量,推演出直至2030年的四种可能路径:(1)进展停滞——受制于物理算力瓶颈或全球协作破裂;(2)进展放缓——仅在实验室等受控环境内缓慢迭代;(3)持续进展——AI成为人类‘专家级协作者’,大幅提升各行业生产力;(4)加速发展——AI开始参与自身研发,触发‘智能爆炸’,能力逼近或超越人类认知临界点。每种路径均附有具体技术指标阈值与政策干预窗口期,为各国制定长期战略提供决策锚点。
报告特别警示当前AI能力的‘锯齿状分布’(Jagged Capabilities):顶级模型在奥数金牌级数学推理中准确率超90%,却在简单空间计数任务中错误频发;能生成逻辑严密的法律意见书,却难以稳定识别图像中物体数量。这种‘强复杂、弱基础’的脆弱智能,恰恰放大了系统性风险——一旦被恶意利用,其不可预测性将远超传统软件漏洞。报告呼吁建立全球AI能力‘红蓝对抗’测试平台,强制高风险模型通过对抗鲁棒性、价值观稳定性、幻觉可控性等基准测试。中国学者评论认为,该报告虽具西方视角,但其对‘现实证据’的强调与对‘能力临界点’的量化预警,与中国《网络安全法》强调的‘风险监测评估’形成跨域呼应,凸显全球AI安全治理正从理念共识迈向协同行动。