专栏名称: 码农翻身
工作15年的前IBM架构师分享好玩有趣的编程知识和职场的经验教训, 不容错过。
目录
相关文章推荐
今天看啥  ›  专栏  ›  码农翻身

中国的大模型怎么突然间就领先了?

码农翻身  · 公众号  · 程序员  · 2025-02-25 08:55
    

文章预览

2025年开年,国产的大模型频频“刷屏”。 DeepSeek用低成本和高性能震撼了世界,MiniMax一出手就是“王炸”,MiniMax-01凭借超长的长文本理解能力,被海外媒体、投资人和研究员认为是可以和OpenAI“掰手腕”的顶尖开源模型。 之前还有人说中国顶尖企业的大型语言模型大约落后美国同行6到9个月,这怎么突然间就领先了呢? 其实,如果我们仔细看看这些优秀大模型的特点和最近的发展策略,就能从中找到答案。 0 1 底层技术创新是根本 MiniMax针对大模型 最底层、最核心的Transformer架构进行了重构 ,它第一次在一个超大规模商用模型上,引入了 有别于传统Transformer架构的线性注意力机制 ,以极低的算力成本,为困扰着整个大模型行业的难题提供一个新的解题思路。 这种底层技术创新让MiniMax-01大模型 能够高效处理高达400万token的输入,可输入长度是GPT- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览