专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Nvidia提出ChatQA 2,提升LLM的Long Context和RAG能力

AINLP  · 公众号  ·  · 2024-07-30 10:10
    

文章预览

近日,英伟达发布了ChatQA 2模型,其想法是弥合开源模型和领先模型如GPT-4-Turbo之间的差距。文中提出了一种训练方法,以有效地扩展 Llama3-70B 的上下文窗口 (8K->128K)。它还包括指令调整,以增强指令跟随、RAG 性能和长上下文理解。“结果表明,Llama3-ChatQA-2-70B 模型在许多长上下文理解任务上实现了与 GPT-4-Turbo2024-0409 相当的准确度,并在 RAG 基准上超越了它。” 建立更长的注意力:长期训练 扩展 LLM 的上下文窗口并非易事:这不仅仅是向其提供更多数据的问题;它需要仔细调整模型的架构和训练过程。ChatQA 2 通过双管齐下的方法实现了这一目标: 1. 拓展视野:持续预训练 ChatQA 2 并非从零开始,而是建立在 Llama3–70B 模型的基础之上。这个预先训练的模型提供了一个坚实的起点,而 ChatQA 2 的训练侧重于进一步扩展其功能。具体方法如下: SlimPajama 数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览