8月1日晚,谷歌推出其迄今最强推理模型Gemini 2.5 Deep Think。
Gemini 2.5 Deep Think主打“多智能体推理”,可生成多个智能体并发进行推理。作为谷歌首个对公众开放的多智能体模型,Gemini 2.5 Deep Think核心机制是并行生成多个智能体思考路径,从中筛选最优答案,尽管耗能更大,但推理效果显著提升。
同时,该版本在日常使用中速度更快、更易用,根据内部评估,在2025年IMO基准测试中仍达到铜牌水平。
此前,谷歌在今年5月的I/O开发者大会上首次预览了Gemini 2.5 Deep Think,宣布新版本进行了“重大改进”。在具有挑战性的编程、科学、知识、推理基准测试中,与OpenAI o3、Grok 4等其他不使用工具的模型相比,Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity’s Last Exam均取得最佳性能。
据了解,Deep Think支持文本、图像、音频、视频等输入和1M tokens上下文窗口,输出长度为192K tokens。其工作原理是利用谷歌的并行思维技术,能同时生成多个想法,并同时进行思考,甚至随着时间的推移不断修改或整合不同的想法,最终得出最佳答案。
值得一提的是,Gemini 2.5 Deep Think是最近谷歌在今年国际数学奥林匹克(IMO)上“拿金牌”的模型的变体,即高级版Gemini Deep Think解答了IMO 6道题目中的5道,总分35分(满分42分),达到金牌水平。
目前,仅有最高级别的Google AI Ultra订阅者可选用“Deep Think”,每月订阅费为249.99美元(约合人民币1803元)。