5 月 21 日消息,谷歌公司上周發布技術報告,表示 Gemini 1.5 Pro 模型在經過專門的數學領域訓練之后,大幅提高了數學成績,并成功解決了國際數學奧林匹克競賽的部分問題。
谷歌針對數學場景有針對性地訓練 Gemini 1.5 Pro 模型,并通過 MATH 基準、美國數學邀請考試( AIME) 和谷歌內部的 HiddenMath 基準進行測試。
根據谷歌的數據,數學型 Gemini 1.5 Pro 在數學基準測試中的表現“與人類專家的表現相當”,與標準的非數學型 Gemini 1.5 Pro 相比,數學型 Gemini 1.5 Pro 在 AIME 基準測試中解決的問題明顯增多,在其他基準測試中的得分也有所提高。
谷歌官方分享的三個示例中,兩個是由數學專用的 Gemini 1.5 Pro 解決的,而一個是由標準的 Gemini 1.5 Pro 變體錯誤解決的。這些問題通常要求解題者回憶代數中的基本數學公式,并依靠它們的分段和其他數學規則得出正確答案。附上相關截圖如下:
除了問題之外,谷歌還分享了 Gemini 1.5 Pro 基準測試的重要細節。這些數據表明,在所有五項基準測試成績中,Gemini 1.5 Pro 都領先于 GPT-4 Turbo 和亞馬遜的 Claude。
谷歌表示數學衍生版 Gemini 1.5 Pro 單個樣本 MATH 基準準確率為 80.6%,在對 256 個解決方案進行采樣并選擇一個候選答案時(rm@256),準確率達到 91.1%。
參考
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
本文鏈接:http://www.www897cc.com/showinfo-45-4373-0.html聲稱“媲美人類專家”,谷歌 Gemini 1.5 Pro 數學版“提智”:MATH 基準準確率 91.1%
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com