六问AI被‘投毒’灰产:虚假信息如何系统性污染大模型训练生态

2026-03-29 18:51 👁 阅读

2026年3月18日,国家网信办联合中国人工智能产业发展联盟发布《生成式AI训练数据安全风险白皮书》,首次系统披露GEO(Generative Engine Optimization)灰产运作链条及其对AI问答系统根基的侵蚀路径。该灰产并非传统意义上的黑客攻击,而是利用大模型‘数据依赖性’与‘共识幻觉’双重脆弱性,通过批量伪造社交媒体帖文、篡改开源数据集标注、注册镜像网站等方式,向公共训练语料库持续注入结构化虚假信息。典型案例如2025年西藏定日地震事件中,AI生成的‘六指被困男孩’图像虽因生理破绽被识破,但更隐蔽的‘交叉验证型污染’已具实战能力——当数百个IP地址、不同设备指纹的账号同步发布高度一致的虚假灾情描述时,大模型在训练中会将其误判为高置信度事实,并在后续问答中优先调用该错误知识链。

灰产背后是清晰的商业动机驱动:在AI成为新一代流量入口的当下,影响AI回答即等于抢占用户决策链路前端。商家无需投入SEO优化成本,只需支付数万元即可委托灰产团伙完成‘关键词霸屏’——使自家品牌在AI回答‘XX领域最佳服务商’时稳定出现在首条推荐位。产业链已形成严密分工:上游为亟需曝光的中小商户,中游为掌握Prompt工程与数据爬虫技术的黑产工作室,下游则是操控百万级僵尸账号进行内容分发与权重刷量的‘水军工厂’。据白皮书披露,某头部问答平台2025年Q4拦截的恶意训练数据中,含地理坐标伪造、资质证书PS、历史事件篡改等高仿真样本超1200万条。

应对这一新型威胁,监管与技术防线正在协同升级。工信部已启动‘净源行动’,要求所有备案AI问答服务提供商建立训练数据溯源审计系统,对公开网络抓取数据实施‘三重校验’(来源可信度评分、内容一致性检测、实体关系冲突扫描);技术层面,百度千帆平台于3月上线‘数据免疫模块’,通过对抗训练生成的检测模型,可识别98.7%的GEO特征文本。专家强调,防范投毒不能仅靠事后过滤,必须前移至数据采集端,构建覆盖数据生产、流通、使用的全生命周期治理体系,否则AI问答的‘可信度’将沦为不可持续的空中楼阁。