中国的大模型怎么突然间就领先了？

码农翻身 · 公众号 · 程序员 · 2025-02-25 08:55

文章预览

2025年开年，国产的大模型频频“刷屏”。 DeepSeek用低成本和高性能震撼了世界，MiniMax一出手就是“王炸”，MiniMax-01凭借超长的长文本理解能力，被海外媒体、投资人和研究员认为是可以和OpenAI“掰手腕”的顶尖开源模型。之前还有人说中国顶尖企业的大型语言模型大约落后美国同行6到9个月，这怎么突然间就领先了呢？其实，如果我们仔细看看这些优秀大模型的特点和最近的发展策略，就能从中找到答案。 0 1 底层技术创新是根本 MiniMax针对大模型最底层、最核心的Transformer架构进行了重构，它第一次在一个超大规模商用模型上，引入了有别于传统Transformer架构的线性注意力机制，以极低的算力成本，为困扰着整个大模型行业的难题提供一个新的解题思路。这种底层技术创新让MiniMax-01大模型能够高效处理高达400万token的输入，可输入长度是GPT- ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

程序员的那些事 · 北京大学出的第二份 DeepSeek 教程来了！（PDF可下载）

11 小时前

中国期货业协会 · 中期协国家级证券期货投教基地满意度调查问卷

9 月前

中建七局 · 【科技引领】“红色引擎”拉动新质生产力，科技创新护航万吨民生桥

7 月前

参考消息 · 五星红旗挂起来了

7 月前

纳芯微电子 · 电源“芯”世界|车载LDO一站式解决方案手册有奖预约开启！

6 月前