专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

夕小瑶科技说  · 公众号  ·  · 2024-08-01 15:30

文章预览

 夕小瑶科技说 原创  作者 | Richard 在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制,超过这个限制的内容会被模型忽略。一般而言,开源大模型的上下文长度普遍较短,例如 Llama3 的上下文长度为 8K;而闭源模型的上下文长度则要比开源模型长的多,例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模型能够一次处理更多的信息,从而在复杂任务中表现出更强的能力。 最近 NVIDIA 研究团队在开源模型 Llama-3 的基础上,通过一系列创新技术,将其上下文长度从原来的 8K 扩展到了 128K,将 Llama-3 的上下文长度扩展到原始的 16 倍。在长上下文理解能力上,扩展之后的 Llama3-ChatQA-2-70B ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览