一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

机器学习算法与自然语言处理  · 公众号  ·  · 2024-08-03 09:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 夕小瑶科技说 作者 | Richard 在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制,超过这个限制的内容会被模型忽略。一般而言,开源大模型的上下文长度普遍较短,例如 Llama3 的上下文长度为 8K;而闭源模型的上下文长度则要比开源模型长的多,例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模型能够一次处理更多的信息,从而在复 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览