专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

大模型对齐到底是与谁的价值对齐?KAIST-AI | 提出大模型多价值对齐方法!

AINLPer  · 公众号  ·  · 2024-06-04 22:31
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 引言 大模型(LLMs)当前的对齐方法通常会存在这么一个假设:只要与公众整体价值对齐那么就是大模型对齐的最佳选择。然而,人类价值观是多样的,为了实现大模型的个性化用户对齐,需要频繁的收集偏好数据并为每个用户定制训练奖励模型和LLM。那么问题来了:那么多价值体系,大模型对齐到底是和谁的价值对齐呢? 面对该问题,本文作者提出了一种新的方法,并创建了一个包含192k种价值观组合和65k条用户指令的偏好数据集。利用此数据集,作者训练了一个名为JANUS7B大模型,实验表明 用户可以在系统消息中表明其价值偏好,从而让大模型生成与用户价值一致的内容 。 https://arxiv.org/pdf/2405.17977 背景介绍 对于大模型的对齐,当前主要采用人类反馈强化学习、指令微调等后训练技术 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览