专栏名称: Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

谷歌首个混合推理模型Gemini 2.5 Flash：性能与o4-mini相媲美、可灵活控制「思考预算」

Founder Park · 公众号 · 科技自媒体 · 2025-04-18 12:02

主要观点总结

谷歌发布了首个混合推理模型Gemini 2.5 Flash，具有自定义的“思考预算”功能，可在关闭思考模式下降低成本并维持高性能。新模型在多项基准测试中表现出色，相较于之前的模型性能有所提升。同时，该模型还提供API接口给开发者使用，并邀请开发者加入社群进行模型测试和资源对接。文章还介绍了Gemini 2.5 Flash的特点和优势，以及使用场景。

关键观点总结

关键观点1: Gemini 2.5 Flash发布

谷歌发布了首款混合推理模型Gemini 2.5 Flash，具有自定义的“思考预算”功能，可以根据任务需求调整推理深度。

关键观点2: 模型性能与成本优化

Gemini 2.5 Flash在关闭思考模式下，成本直接降低60%，而且性能不输于之前的版本。开启思考模式则能提高模型性能。

关键观点3: 模型特点与优势

Gemini 2.5 Flash在多模态推理、知识问答等任务上表现出色，完全碾压之前的模型，并且与最新模型o4-mini相媲美。此外，该模型还具有高性价比。

关键观点4: API开放与开发者社群

Gemini 2.5 Flash的API接口已经开放给开发者使用，并且谷歌正在搭建开发者社群，邀请开发者加入进行模型测试和资源对接。

文章预览

文章来源于新智元刚刚，谷歌重磅发布首个混合推理模型——Gemini 2.5 Flash。与 Claude 类似，新模型的「思考预算」可以自定义，即可开启/关闭Gemini 2.5 的思考模式。值得一提的是，关闭思考的成本直接暴降 600%，而且性能还不输 Gemini 2.0 Flash。具体来说，Gemini 2.5 Flash 关闭思考输出价格 0.6 美元/百万token，开启思考输出价格 3.5 美元/百万token。当然了，思考越久，模型性能也会随之提升。在 GPQA 知识问答中，新模型 24k 思考预算，性能提升了 6%；对于代码任务（LiveCodeBench），16k 思考预算性能最佳。在多项基准测试中，Gemini 2.5 Flash 再次刷新 SOTA。在大模型排行榜中，Flash预览版以 1392 ELO 高分位居第二，与 GPT-4.5-preview、Grok 3 并驾齐驱。在数学（AIME 2025/2024）、多模态推理（MMMU）、知识问答（GPQA）等基准上，Gemini 2.5 Flash 完全碾压 Claude 3.7 Sonnet，足 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

财联社AI daily · 经纬恒润，亏损扩大

14 小时前

财联社AI daily · 经纬恒润，亏损扩大

14 小时前

贵州省生态环境厅 · 贵州生态环境一周要闻（04.21-04.27）

2 天前

贵州省生态环境厅 · 贵州生态环境一周要闻（04.21-04.27）

2 天前

吉安公安 · 空地联动，10分钟找回走失老人！

2 天前

互联网那些事 · 拿下5亿融资后，manus公测能否提上日程？

2 天前

互联网那些事 · 拿下5亿融资后，manus公测能否提上日程？

2 天前

sven_shi · 我觉得他说的意思不应该是学历管一辈子，而是体制管一辈子。从包分配-20250427100329

3 天前

深圳特区报 · 第18金！“追尾”了！

8 月前

白桃星座 · 荔枝星运排行榜（8.19 - 8.26）

8 月前

中国工商银行信用卡 · 网络交友，别让“甜言蜜语”变“诈骗剧本”！

7 月前

中国旅游报 · 国庆节假期国内出游7.65亿人次、隰县逆转“差评”为小城文旅打样……本周热点来了

6 月前

半月谈 · 康师傅获授全国首个航天专利方便面企业称号，开启食品科技新阶段

3 月前