文章预览
本文研究了视觉语言模型 CLIP 在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为 CausalFace 的合成人脸数据集,通过系统地独立变化 年龄、性别、人种、面部表情、照明和姿势 等六个维度来评估模型的社会感知。他们发现,尽管 CLIP 是在多样化的图像和文本数据上训练的,但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了 CLIP 在处理受法律保护的属性(年龄、性别和人种)时存在系统性的偏见,尤其是对黑人女性面孔的社会感知显示出极端值。此外,研究指出面部表情对社会感知的影响大于年龄和照明条件。这些发现表明,在研究视觉语言模型的社会偏见时,控制非受保护的视觉属性是非常重要的,以避免得出错误的结论。 1 数据集介绍 数据集由 合成的人脸图像 组成,这些图像通过生成对抗网络( GAN )
………………………………