专栏名称: 麻省理工科技评论
《麻省理工科技评论》杂志官方微博 源自麻省理工学院,关注即将商业化的创新,聚焦即将资本化的创业。
今天看啥  ›  专栏  ›  麻省理工科技评论

#大语言模型# 【研究人员打造即插即用型框架,将多智能体强化学习-20241118205404

麻省理工科技评论  · 微博  ·  · 2024-11-18 20:54

文章预览

2024-11-18 20:54 本条微博链接 #大语言模型# 【研究人员打造即插即用型框架,将多智能体强化学习引入大语言模型】 当前,在安全对齐、代码生成等下游任务中,大语言模型要想进一步提升性能,往往需要进行强化学习微调。 但是,从 #强化学习# 的视角来看,如果把大语言模型当成根据 prompt 做决策的智能体,就会发现强化学习微调这个任务可谓十分困难。 其中主要存在两个难点: 一是大语言模型拥有非常庞大的离散 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览