DoNews2月14日消息,谷歌北京時間 13 日晚間宣布對 Gemini 3 Deep Think 進行重大升級,號稱是專門針對科學(xué)、研究與工程場景的開發(fā)的“推理模式”,旨在推動智能前沿發(fā)展。
據(jù)介紹,新版 Deep Think 由谷歌開發(fā)人員與各行業(yè)科學(xué)家、研究人員共同合作完成,目標是應(yīng)對真實科研環(huán)境中的常見復(fù)雜問題:缺少清晰邊界、未必存在唯一解,且數(shù)據(jù)往往雜亂或不完整。
此次升級的一個關(guān)鍵變化是,Deep Think 的可用范圍進一步擴大。谷歌稱,更新后的 Deep Think 從當(dāng)?shù)貢r間 2 月 12 日起在 Gemini 應(yīng)用中向 Google AI Ultra 訂閱用戶開放。
谷歌首次將 Deep Think 通過 Gemini API 提供給部分研究人員、工程師與企業(yè),采用“早期訪問計劃”的方式推進,并開放了申請入口以招募意向用戶。
在能力表現(xiàn)方面,谷歌強調(diào)新版 Deep Think 在數(shù)學(xué)、算法與編程等高難推理任務(wù)上繼續(xù)提升。該模式在不使用工具的情況下,在終極人類考試(Humanity's Last Exam)上取得 48.4% 的成績;在 ARC-AGI-2 上達到 84.6%,并由 ARC Prize Foundation 驗證;在 Codeforces 競賽編程基準上獲得 3455 的 Elo;并在 2025 年國際數(shù)學(xué)奧林匹克競賽(IMO 2025)上達到金牌水平表現(xiàn)。

除數(shù)學(xué)與編程之外,谷歌還強調(diào)新版 Deep Think 在化學(xué)、物理等科學(xué)領(lǐng)域同樣具備更強能力。官方稱,該模式在 2025 年國際物理奧林匹克與國際化學(xué)奧林匹克的筆試部分取得金牌級結(jié)果,同時在理論物理相關(guān)的 CMT-Benchmark 上獲得 50.5% 的得分。

谷歌表示,Deep Think 的目標不僅是追求基準測試成績,還希望推動實際工程與科研應(yīng)用,例如幫助研究人員解釋復(fù)雜數(shù)據(jù)、幫助工程師通過代碼對物理系統(tǒng)進行建模。谷歌稱,未來將持續(xù)把 Deep Think 帶到研究人員和實踐者“最需要的地方”,而通過 Gemini API 開放早期訪問被視為重要一步。
