视觉语言模型中的人脸社会感知

AI大模型学习基地 · 公众号 · · 2024-09-12 10:10

文章预览

本文研究了视觉语言模型 CLIP 在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为 CausalFace 的合成人脸数据集，通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现，尽管 CLIP 是在多样化的图像和文本数据上训练的，但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了 CLIP 在处理受法律保护的属性（年龄、性别和人种）时存在系统性的偏见，尤其是对黑人女性面孔的社会感知显示出极端值。此外，研究指出面部表情对社会感知的影响大于年龄和照明条件。这些发现表明，在研究视觉语言模型的社会偏见时，控制非受保护的视觉属性是非常重要的，以避免得出错误的结论。 1 数据集介绍数据集由合成的人脸图像组成，这些图像通过生成对抗网络（ GAN ） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博