文章预览
2025年开年,国产的大模型频频“刷屏”。 DeepSeek用低成本和高性能震撼了世界,MiniMax一出手就是“王炸”,MiniMax-01凭借超长的长文本理解能力,被海外媒体、投资人和研究员认为是可以和OpenAI“掰手腕”的顶尖开源模型。 之前还有人说中国顶尖企业的大型语言模型大约落后美国同行6到9个月,这怎么突然间就领先了呢? 其实,如果我们仔细看看这些优秀大模型的特点和最近的发展策略,就能从中找到答案。 0 1 底层技术创新是根本 MiniMax针对大模型 最底层、最核心的Transformer架构进行了重构 ,它第一次在一个超大规模商用模型上,引入了 有别于传统Transformer架构的线性注意力机制 ,以极低的算力成本,为困扰着整个大模型行业的难题提供一个新的解题思路。 这种底层技术创新让MiniMax-01大模型 能够高效处理高达400万token的输入,可输入长度是GPT-
………………………………