今天看啥  ›  专栏  ›  AI科技评论

大模型隐藏玩家上桌:DeepSeek 向左,面壁向右

AI科技评论  · 公众号  ·  · 2025-01-16 16:48
    

文章预览

他们正在打样「榨干」有限算力的极致解法。 作者丨朱可轩 编辑丨陈彩娴 大模型赛跑两年后,玩家已逐步分化为三种趋势:一类玩家仍追随 OpenAI 的脚步卷大参数基座模型,另外一类烧不起钱的玩家转头拥抱应用端,而第三类则自始至终都在摸索如何更高效打造出性能更优的模型。 目前,第一类卷向大参数的玩家也都在寻找高效解决方案,连 OpenAI 此前发布 GPT-4o mini 切入小模型市场,Meta Llama 3.1-8B、微软 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是头部玩家在做的布局。 算力存在上限已是不争的事实,而且也并非参数越大就意味着效果一定能达到预期,更何况,如若如果每增长一倍参数规模,效果能力却并未呈一倍增长,大模型发展起来会很慢: OpenAI 能用百千亿达到 GPT-4 的水平,其他家则可能需要投入更多资源, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览