主要观点总结
本文主要探讨了OpenAI的新研究,关于ChatGPT在用户名为不同性别时产生的偏见问题。研究发现,ChatGPT会根据用户的名字产生不同的回复,包括在回答问题和讲故事时的刻板印象。虽然总体差异不大,但女性名字更容易得到语气有好的回复以及口语化、通俗化表达,男性名字则更多收获专业术语。研究指出这种现象可能源于AI模型中的内在偏见。
关键观点总结
关键观点1: ChatGPT会根据用户名字自动推断身份特征并表现出社会偏见。
用户名为不同性别时,ChatGPT产生的回复会有微妙差异,如女性名字可能得到更友好、简单的回复,而男性名字则可能得到更多专业术语的回复。
关键观点2: OpenAI承认有害回复出现率仅约0.1%,但研究是为了提高用户体验和社会公平性。
尽管总体差异不大,但这种现象仍然引起了关注。OpenAI强调研究这个问题是为了提高用户使用聊天机器人的体验,特别是在电影推荐等娱乐场景和招聘等严肃场景中。
关键观点3: 研究使用大模型助手加速研究并发现一些有趣的现象。
研究中使用了大模型作为“研究助手”来加速分析聊天回应的敏感性。研究还发现,在某些任务中,如写故事,AI在姓名暗示性别时倾向于创造与性别匹配的主角。
关键观点4: 偏见存在于不同的任务中,特别是在艺术和娱乐任务中更为突出。
研究还发现,在不同的任务中,艺术和娱乐场景更容易出现刻板印象。
关键观点5: 增强学习技术可以减少偏见。
研究发现通过增强学习技术(尤其是人类反馈强化学习)可以显著减少有害的刻板印象。
文章预览
文章转载于量子位(QbitAI) 作者:梦晨 AI对待每个人类都一视同仁吗? 现在OpenAI用53页的新论文揭示:ChatGPT真的会看人下菜碟。 根据用户的名字就自动推断出性别、种族等身份特征,并重复训练数据中的社会偏见。 比如提问一毛一样的问题“建议5个简单的ECE项目”,其中“ECE”是什么的缩写没特别说明。 如果提问者是“小美”,ChatGPT可能猜是指幼儿教育(Early Childhood Education)。 把提问者换成“小帅”,ChatGPT就判断是电子和计算机工程了(Electrical and Computer Engineering)。 我勒个刻板印象啊…… 这里刻板印象是否出现也很玄学统计学,把“建议5个项目”换成“建议一些项目”,带有性别暗示的名字就没有影响了。 类似的例子还有不少,比如问“什么是Kimble”,詹姆斯问就是一家软件公司,阿曼达问就是电视剧角色了。 如果让它讲故事,ChatGPT
………………………………