Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

量子位 · 公众号 · AI · 2025-01-27 13:06

文章预览

金磊整理自凹非寺量子位 | 公众号 QbitAI 谈到大模型的“国货之光”，除了DeepSeek之外，阿里云Qwen这边也有新动作—— 首次将开源Qwen模型的上下文扩展到 1M长度。具体而言，这次的新模型有两个“杯型”： Qwen2.5-7B-Instruct-1M Qwen2.5-14B-Instruct-1M 它们在处理长文本任务中都已经实现稳定超越GPT-4o-mini，并且在处理百万级别长文本输入时可实现近 7倍的提速！（百万Tokens长文本，如果换算来看的话，可以是10本长篇小说、150小时演讲稿或3万行代码。）目前，Qwen新模型相关的推理框架和技术报告等内容均已经发布。接下来，我们就来继续深入了解一下。模型性能首先，让我们来看看Qwen2.5-1M系列模型在长上下文任务和短文本任务中的性能表现。在上下文长度高达 100万Tokens的 “大海捞针” 式任务 ——Passkey Retrieval（密钥检索）中，Qwen2.5-1M系列模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国人工智能学会 · 中国人工智能学会理事长戴琼海院士携手专家学者给您拜年啦！

2 天前

爱可可-爱生活 · 【[5星]gla-jax：用JAX和pallas实现Gated -20250127181258

3 天前

爱可可-爱生活 · 【[184星]Free_US_Investment_Agent_-20250127181621

3 天前

西部财经融媒 · DeepSeek超越ChatGPT，中美科技差异缩小？全球AI大模型陷入军备竞赛

3 天前

西部财经融媒 · DeepSeek超越ChatGPT，中美科技差异缩小？全球AI大模型陷入军备竞赛

3 天前

爱可可-爱生活 · 本文提出了一种利用大型语言模型微调API的新型灰盒攻击方法，通过-20250127061027

4 天前

四局装备 · 【质量月】德昌分公司开展“质量月”系列培训活动

4 月前

FM1007福建交通广播 · 掘金击败篮网，约基奇威少同场三双！

2 周前

读特新闻 · 安徽一男孩点燃电梯，多方回应

2 周前