专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

无需人工/GPT-4V排序，针对多模态大模型的全自动多级偏好学习

PaperWeekly · 公众号 · 科研 · 2024-08-13 12:31

文章预览

©PaperWeekly 原创 · 作者 | 吴文灏单位 | 悉尼大学博士生研究方向 | 多模态学习、视频理解前段时间分享了我们在多模态大模型（MLLM）视觉信号利用方面的思考： Dense Connector ，今天想和大家分享一下我们在另一个正交维度的探索：在 MLLM 的人类反馈强化学习（RLHF）方面的思考，以下分享内容由一作小学弟张梦溪和我共同完成。论文题目： Automated Multi-level Preference for MLLMs 论文链接： https://arxiv.org/pdf/2405.11165 代码链接： https://github.com/takomc/amp 简介由于不同模态之间潜在的误对齐，多模态大模型 (MLLMs) 一直被“幻觉”问题所困扰。这里的幻觉指的是模型的回答与图像内容不符的部分。一些前人的探索（例如 LLaVA-RLHF，RLHF-V）等利用了基于强化学习的人类偏好对齐（Reinforcement Learning from Human Feedback，RLHF）。这些工作证明了 RLHF 是一种解决幻觉 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

国际新闻界 · 计算传播学的社交机器人田野实验：概念、方法与应用

昨天

科研大匠 · 11人考察，36人面试，基金委公布2批共计27个项目主任岗招聘

2 天前

实验万事屋 · 和我博士生师弟讲课题真的不如刷短视频！短视频刷出来的都是我爱看的，但他问的没一句我爱听的……

3 天前

研之成理 · 吉大管景奇课题组Adv Energy Mater：二氧化碳电还原中的应变效应

4 天前

研之成理 · 华科单斌教授、贵研张爱敏研究员合作ACS Catalysis：高通量计算结合微反应动力学分析辅助双原子PROX催化剂筛选

5 天前

机器学习研究组订阅 · 陶哲轩点评谷歌AlphaProof：AI在数学竞赛中展现「超凡智慧」

5 月前

科学材料站 · 张培新教授、马定涛助理教授，陈继章教授， AFM：设计串联电化学自组装电极助力快充长寿命锌离子电池

4 月前

忘川边的但丁 · 《西游记》里，最黑的当然不是神话

4 月前

忘川边的但丁 · 《西游记》里，最黑的当然不是神话

4 月前

道心语境 · 平旦華語（甲辰141）：有机西红柿也治「病」

2 月前