专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini

量子位  · 公众号  · AI  · 2025-01-27 13:06
    

文章预览

金磊 整理自 凹非寺 量子位 | 公众号 QbitAI 谈到大模型的“国货之光”,除了DeepSeek之外,阿里云Qwen这边也有新动作—— 首次将 开源Qwen模型 的上下文扩展到 1M长度 。 具体而言,这次的新模型有两个“杯型”: Qwen2.5-7B-Instruct-1M Qwen2.5-14B-Instruct-1M 它们在处理长文本任务中都已经实现稳定超越GPT-4o-mini,并且在处理百万级别长文本输入时可实现近 7倍的提速! (百万Tokens长文本,如果换算来看的话,可以是10本长篇小说、150小时演讲稿或3万行代码。) 目前,Qwen新模型相关的推理框架和技术报告等内容均已经发布。 接下来,我们就来继续深入了解一下。 模型性能 首先,让我们来看看Qwen2.5-1M系列模型在长上下文任务和短文本任务中的性能表现。 在上下文长度高达 100万Tokens的 “大海捞针” 式任务 ——Passkey Retrieval(密钥检索)中,Qwen2.5-1M系列模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览