专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第26期

AI TIME 论道  · 公众号  ·  · 2024-06-21 17:45
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs 尽管大型语言模型(LLMs)取得了显著进展,例如GPT-4和Claude,小规模LLMs如Llama和Mistral在生成深入且连贯的对话方面常常表现不佳。本文提出了一种新颖的两步粗细Actor模型(Coarse-to-Fine Actor)来解决小规模LLMs在会话和分析能力方面的固有局限性。所提方法始于基于策略的粗略Actor(Policy-based Coarse Actor),采用了一种被命名为“连续最大化”(Continuous Maximization)的技术。粗略Actor建立了一个增强的、知识丰富的池,能够更好地与人类偏好的分析和推理风格对齐。通过RLHF过程,它采用连续最大化策略,动态且自适应地延长输出长度限制,从而生成更详细和分析性的内容。随后,细致Actor(Fine Actor)对这些分析内容 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览