文章预览
机器之心报道 编辑:泽南、蛋酱 年关将近,全球 AI 大模型却突然卷了起来。 就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。种种迹象表明,进入推理增强赛道的各位玩家正试图在最近一两个月卷出个高下。 1 月 24 日上午,百川智能重磅发布了 国内首个全场景深度思考模型 ,把这一轮军备竞赛推向了高潮。 Baichuan-M1-preview 同时具备语言推理、视觉推理和搜索推理三个维度的全面推理能力,各项能力在多个领域的主流开源、闭源评测集上表现出众。 在 AIME 和 Math 等数学基准测试以及 LiveCodeBench 代码任务上,Baichuan-M1-preview 的成绩超越了 o1-preview 等模型。 在视觉推理能力方面的 MMMU-val、MathVista 等权威评测中,Baichuan-M1-preview 超越了 GPT-4o、Claude3
………………………………