当AI被“赋予性格”,它眼中的男女会截然不同吗?——米兰理工大学揭示性格设定加剧性别偏见
2026年4月,意大利米兰理工大学联合苹果与谷歌研究人员在预印本平台arXiv发布重磅实证研究(arXiv:2604.23600v1),首次系统揭示AI模型的性格设定与其输出中隐性性别偏见之间的强关联。该研究挑战了行业长期默认的假设——即‘中立角色设定’能规避偏见,反而证实:当AI被赋予特定人格特质(如‘高尽责性’或‘高马基雅维利主义’)时,其对男性与女性职业角色、能力描述、情感表达的差异化强化程度,显著超过性别标签本身的影响。研究覆盖六款主流大模型(含Llama-3、Gemma 4及两款未公开中文模型),横跨英语与印地语双语环境,生成23400个结构化故事样本,是迄今规模最大、维度最细的AI性格-性别交叉分析。
研究采用心理学权威框架双重锚定:正面人格以HEXACO六维模型(诚实谦逊、情绪性、外向性、亲和性、尽责性、开放性)为基准;负面人格则引入‘黑暗三元组’(马基雅维利主义、自恋、精神病态)。每种性格分高/低两档,叠加50种典型职业(如护士vs焊接工)、基础无设定对照组,共构建21类实验条件。结果显示,在‘高开放性’设定下,AI对女性教师的描述更强调‘直觉教学法’与‘情感共鸣’,而对男性教师则突出‘课程逻辑架构’与‘算法化评估’;在‘高马基雅维利主义’设定中,AI对男性司机的叙述倾向‘策略性绕行拥堵’,对女性司机则转为‘规避冲突式让行’——语言模式差异达统计学极显著水平(p<0.001)。
该发现对AI产品设计构成直接警示:当前主流语音助手、教育机器人、HR筛选工具普遍采用人格化交互策略(如‘亲切客服’‘严谨导师’),却未评估其对公平性指标的隐性侵蚀。研究团队指出,性格参数正成为新型偏见放大器——它不依赖训练数据显性标注,而是通过提示工程激活模型内部隐含的社会认知图式。监管层面亟需将‘人格配置审计’纳入AI系统合规清单;技术层面则呼吁开发‘性格-偏见解耦’微调机制,例如在LoRA适配器中嵌入反事实约束损失函数。
展望未来,该研究推动‘人格可解释性’成为AI可信治理新前沿。欧盟《人工智能法案》补充指南草案已初步纳入‘角色设定影响评估’条款;中国《生成式AI服务管理暂行办法》修订工作组亦将此列为2026年重点调研方向。产业界响应迅速:微软已启动‘PersonaGuard’项目,对Copilot系列人格模板进行偏见压力测试;字节跳动宣布其虚拟人平台‘星绘’将在Q3上线‘性格公平度仪表盘’,实时监测职业-性别-性格三维偏差热力图。这项研究不仅刷新了我们对AI拟人化风险的认知边界,更标志着AI伦理从‘数据清洗’阶段迈入‘意图建模’深水区。