专栏名称: 麻省理工科技评论
《麻省理工科技评论》杂志官方微博 源自麻省理工学院,关注即将商业化的创新,聚焦即将资本化的创业。
今天看啥  ›  专栏  ›  麻省理工科技评论

#大模型# 【让大模型在自博弈中不断进化,与人类偏好对齐,Dee-20241105172728

麻省理工科技评论  · 微博  ·  · 2024-11-05 17:27

文章预览

2024-11-05 17:27 本条微博链接 #大模型# 【让大模型在自博弈中不断进化,与人类偏好对齐,Deepmind联合芝加哥大学团队提出开放式RLHF框架eva】 #大语言模型# (Large Language Model,LLM)能自己对自己进行优化,与人类的偏好进行对齐吗? 此前,LLM 对齐的主流方法还是通过人类反馈 #强化学习# (Reinforcement Learning from Human Feedback,RLHF)对模型进行微调,但这种方法通常依赖于静态的人工提示分布。随着语言模型的能力不断增强 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览