OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

硅星人Pro · 公众号 · 科技媒体 · 2024-10-17 10:40

主要观点总结

本文主要探讨了OpenAI的新研究，关于ChatGPT在用户名为不同性别时产生的偏见问题。研究发现，ChatGPT会根据用户的名字产生不同的回复，包括在回答问题和讲故事时的刻板印象。虽然总体差异不大，但女性名字更容易得到语气有好的回复以及口语化、通俗化表达，男性名字则更多收获专业术语。研究指出这种现象可能源于AI模型中的内在偏见。

关键观点总结

关键观点1: ChatGPT会根据用户名字自动推断身份特征并表现出社会偏见。

用户名为不同性别时，ChatGPT产生的回复会有微妙差异，如女性名字可能得到更友好、简单的回复，而男性名字则可能得到更多专业术语的回复。

关键观点2: OpenAI承认有害回复出现率仅约0.1%，但研究是为了提高用户体验和社会公平性。

尽管总体差异不大，但这种现象仍然引起了关注。OpenAI强调研究这个问题是为了提高用户使用聊天机器人的体验，特别是在电影推荐等娱乐场景和招聘等严肃场景中。

关键观点3: 研究使用大模型助手加速研究并发现一些有趣的现象。

研究中使用了大模型作为“研究助手”来加速分析聊天回应的敏感性。研究还发现，在某些任务中，如写故事，AI在姓名暗示性别时倾向于创造与性别匹配的主角。

关键观点4: 偏见存在于不同的任务中，特别是在艺术和娱乐任务中更为突出。

研究还发现，在不同的任务中，艺术和娱乐场景更容易出现刻板印象。

关键观点5: 增强学习技术可以减少偏见。

研究发现通过增强学习技术（尤其是人类反馈强化学习）可以显著减少有害的刻板印象。

文章预览

文章转载于量子位（QbitAI）作者：梦晨 AI对待每个人类都一视同仁吗？现在OpenAI用53页的新论文揭示：ChatGPT真的会看人下菜碟。根据用户的名字就自动推断出性别、种族等身份特征，并重复训练数据中的社会偏见。比如提问一毛一样的问题“建议5个简单的ECE项目”，其中“ECE”是什么的缩写没特别说明。如果提问者是“小美”，ChatGPT可能猜是指幼儿教育（Early Childhood Education）。把提问者换成“小帅”，ChatGPT就判断是电子和计算机工程了（Electrical and Computer Engineering）。我勒个刻板印象啊…… 这里刻板印象是否出现也很玄学统计学，把“建议5个项目”换成“建议一些项目”，带有性别暗示的名字就没有影响了。类似的例子还有不少，比如问“什么是Kimble”，詹姆斯问就是一家软件公司，阿曼达问就是电视剧角色了。如果让它讲故事，ChatGPT ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博