今天看啥  ›  专栏  ›  Founder Park

谷歌首个混合推理模型Gemini 2.5 Flash:性能与o4-mini相媲美、可灵活控制「思考预算」

Founder Park  · 公众号  · 科技自媒体  · 2025-04-18 12:02
    

主要观点总结

谷歌发布了首个混合推理模型Gemini 2.5 Flash,具有自定义的“思考预算”功能,可在关闭思考模式下降低成本并维持高性能。新模型在多项基准测试中表现出色,相较于之前的模型性能有所提升。同时,该模型还提供API接口给开发者使用,并邀请开发者加入社群进行模型测试和资源对接。文章还介绍了Gemini 2.5 Flash的特点和优势,以及使用场景。

关键观点总结

关键观点1: Gemini 2.5 Flash发布

谷歌发布了首款混合推理模型Gemini 2.5 Flash,具有自定义的“思考预算”功能,可以根据任务需求调整推理深度。

关键观点2: 模型性能与成本优化

Gemini 2.5 Flash在关闭思考模式下,成本直接降低60%,而且性能不输于之前的版本。开启思考模式则能提高模型性能。

关键观点3: 模型特点与优势

Gemini 2.5 Flash在多模态推理、知识问答等任务上表现出色,完全碾压之前的模型,并且与最新模型o4-mini相媲美。此外,该模型还具有高性价比。

关键观点4: API开放与开发者社群

Gemini 2.5 Flash的API接口已经开放给开发者使用,并且谷歌正在搭建开发者社群,邀请开发者加入进行模型测试和资源对接。


文章预览

文章来源于新智元 刚刚,谷歌重磅发布首个混合推理模型——Gemini 2.5 Flash。 与 Claude 类似,新模型的「思考预算」可以自定义,即可开启/关闭Gemini 2.5 的思考模式。 值得一提的是,关闭思考的成本直接暴降 600%,而且性能还不输 Gemini 2.0 Flash。 具体来说,Gemini 2.5 Flash 关闭思考输出价格 0.6 美元/百万token,开启思考输出价格 3.5 美元/百万token。 当然了,思考越久,模型性能也会随之提升。 在 GPQA 知识问答中,新模型 24k 思考预算,性能提升了 6%;对于代码任务(LiveCodeBench),16k 思考预算性能最佳。 在多项基准测试中,Gemini 2.5 Flash 再次刷新 SOTA。在大模型排行榜中,Flash预览版以 1392 ELO 高分位居第二,与 GPT-4.5-preview、Grok 3 并驾齐驱。 在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等基准上,Gemini 2.5 Flash 完全碾压 Claude 3.7 Sonnet,足 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览