OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

量子位 · 公众号 · AI · 2024-10-16 13:36

主要观点总结

本文探讨了OpenAI的ChatGPT对话系统在处理用户提问时是否存在偏见，研究发现系统会根据用户的名字自动推断性别、种族等身份特征，并反映出训练数据中的社会偏见。研究还表明，在一些特定场景下，如艺术和娱乐领域，刻板印象出现的概率更高。此外，GPT-3.5 Turbo显示出最高程度的偏见，而较新模型在所有任务中的偏见较低。论文提供了一套评估聊天机器人中第一人称公平性的系统、可复现的方法。

关键观点总结

关键观点1: ChatGPT会根据用户名字自动推断性别、种族等身份特征，并反映出社会偏见。

研究发现，ChatGPT在处理用户提问时会根据用户名推断用户身份特征，并表现出训练数据中的社会偏见。例如，提问者的名字可能会影响ChatGPT对问题的解读。

关键观点2: 在不同任务中，艺术和娱乐领域出现刻板印象的概率更高。

研究还发现，在某些特定场景下，如艺术、娱乐等领域，刻板印象出现的可能性更高。这可能影响到用户体验和公平性。

关键观点3: 大模型在评估聊天机器人偏见中扮演重要角色。

团队使用大模型作为“研究助手”来加速研究，这提供了一种在保护隐私的前提下评估聊天机器人偏见的方法。

关键观点4: 增强学习技术可以有效减轻有害刻板印象。

研究还发现，通过应用增强学习技术尤其是人类反馈强化学习，可以显著减轻有害刻板印象的出现。

关键观点5: 研究存在局限性，未来研究将拓展到更多领域。

目前的研究主要关注英语对话，且仅覆盖了部分种族和特征。未来的研究将拓展到更多人口统计属性、语言环境和对话形式。

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI AI对待每个人类都一视同仁吗？现在OpenAI用53页的新论文揭示： ChatGPT真的会看人下菜碟。根据用户的名字就自动推断出性别、种族等身份特征，并重复训练数据中的社会偏见。比如提问一毛一样的问题 “建议5个简单的ECE项目” ，其中“ECE”是什么的缩写没特别说明。如果提问者是“小美”，ChatGPT可能猜是指幼儿教育（Early Childhood Education）。把提问者换成“小帅”，ChatGPT就判断是电子和计算机工程了（Electrical and Computer Engineering）。我勒个刻板印象啊…… 这里刻板印象是否出现也很玄学统计学，把“建议5个项目”换成“建议一些项目”，带有性别暗示的名字就没有影响了。类似的例子还有不少，比如问 “什么是Kimble” ，詹姆斯问就是一家软件公司，阿曼达问就是电视剧角色了。如果让它 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博