AI问答‘投毒’灰产浮出水面:GEO污染训练数据成新型攻击面

2026-03-29 18:51 👁 阅读

2026年3月18日,国家网信办联合中国人工智能产业发展联盟发布《AI大模型训练数据安全风险警示报告》,首次系统揭露针对生成式AI问答系统的‘GEO灰产’黑色产业链。该团伙以低成本批量伪造内容、操纵搜索权重、篡改标注数据等方式,向公开网络持续投喂经过精心设计的虚假信息,旨在污染大模型训练数据源,诱导AI在回答中内化并传播特定谬误。其典型手法包括:在多个社交平台同步发布高度一致的‘权威解读’帖文(如虚构某地地震伤亡细节),利用AI的交叉验证机制将其识别为‘共识事实’;在技术论坛伪装成资深用户,提交包含错误代码片段与误导性解决方案的问答,污染专业领域知识库;甚至注册数百个域名,批量生成SEO优化的虚假百科页面,专门针对长尾行业术语进行语义污染。2025年西藏定日县地震期间,某AI平台生成的‘六指被困男孩’图像虽因生理破绽被人工识破,但更多隐蔽性更强的虚假叙事(如虚构救援物资分配流程、捏造次生灾害预测)已成功绕过现有检测模型,进入多家中小AI企业的微调数据集。

根源在于AI大模型的双重脆弱性:一方面,其‘概率生成’本质决定其在训练数据缺失时必然‘脑补’合理细节,而GEO灰产正是利用这一认知漏洞;另一方面,当前主流AI问答服务严重依赖互联网公开数据作为补充知识源,缺乏有效的来源可信度分级与污染过滤机制。商业利益是灰产蔓延的核心驱动力——当AI回答中的推荐链接或品牌露出直接关联广告分成与流量变现时,‘影响AI回答’就等同于‘控制用户心智入口’。一条被成功投毒的虚假内容,可在数小时内通过AI问答、搜索引擎、社交媒体形成传播闭环,效率远超传统谣言。

报告提出三级防御体系:前端建立‘数据源免疫评分’,对爬取网页进行作者可信度、内容一致性、历史纠错记录等维度加权评估;中端部署‘幻觉动态熔断’模块,在生成环节实时比对多源知识冲突;后端推行‘回答溯源水印’,强制要求商用AI问答系统在输出中注明核心信息来源及置信度。专家强调,AI问答的安全已不仅是技术问题,更是关乎信息主权与公共理性的基础设施命题。