日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

北大千問團隊推出數學專用版 CriticGPT,“找茬”讓大模型進步更快

來源: 責編: 時間:2024-07-11 17:26:16 206觀看
導讀 批評不僅能讓人進步,也能讓大模型的能力提升。OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前幾天,北大聯合千問等團隊以類似的思路設計出了“數學專用版”CriticGPT。

批評不僅能讓人進步,也能讓大模型的能力提升。iiT28資訊網——每日最新資訊28at.com

OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前幾天,北大聯合千問等團隊以類似的思路設計出了“數學專用版”CriticGPT。iiT28資訊網——每日最新資訊28at.com

在無需訓練的設置下,驗證器能夠在推理時輔助模型在 GSM8K 上的準確率從 86.6% 提升到 88.2%。iiT28資訊網——每日最新資訊28at.com

在 GSM8K 數據集上,它可以讓模型的準確率從 86.6% 提升到 88.2%。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

CriticGPT 的核心思路是在代碼中故意設置 bug 并進行詳細標注,然后用得到的數據訓練出會 debug 的模型。iiT28資訊網——每日最新資訊28at.com

北大團隊發現,這種方法不僅在代碼當中有用,也能幫助語言模型解決數學問題。iiT28資訊網——每日最新資訊28at.com

于是團隊利用相似的思路,把代碼換成數學問題,推出了“數學版 CriticGPT”——Math-Minos。iiT28資訊網——每日最新資訊28at.com

用 GPT4 逐步提出修正意見

在數學推理領域,驗證解決方案的正確性,是確保推理質量的關鍵步驟。iiT28資訊網——每日最新資訊28at.com

然而,現有的數學驗證器大多依賴于二元分類標簽進行訓練,這種方式在提供正確或錯誤原因的解釋上存在明顯不足,無法給驗證器提供足夠充分的監督信號來訓練。iiT28資訊網——每日最新資訊28at.com

Math-Minos 則克服了這一局限,提供了更深入的解釋,極大地豐富了驗證器的訓練信息。iiT28資訊網——每日最新資訊28at.com

它引入了逐步的自然語言反饋作為理由標簽,不僅指出了解決方案的正誤,還能逐步分析出錯誤的原因。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

在自然語言反饋的獲取上,研究團隊一開始使用 GPT-4 生成訓練數據,但通過實驗發現,即使是 GPT-4,在逐步評價數學推理任務時也會出現一定比例的錯誤。iiT28資訊網——每日最新資訊28at.com

為了一定程度避免這個問題,研究人員通過在提示中引入步驟級別的二元分類標簽,簡化了 GPT-4 的任務,使得 GPT-4 能夠更準確地生成評估。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

首先,通過監督式微調,使用自然語言反饋作為訓練數據,有效提升了模型的評估能力。iiT28資訊網——每日最新資訊28at.com

其次,通過標準的 ORM(Outcome Reward Model,輸出獎勵模型)和 PRM(Process Reward Model,過程獎勵模型)訓練,實現了高效的推理,這種做法有兩個好處。iiT28資訊網——每日最新資訊28at.com

一是通過兩階段訓練,可以將二分類數據和監督微調數據解耦。iiT28資訊網——每日最新資訊28at.com

由于監督信號的稀疏性,訓練二分類的數據往往遠多于監督微調的數據,而研究發現,僅需要少量的監督微調數據,就可以很大程度提升模型的評估能力。iiT28資訊網——每日最新資訊28at.com

另一方面,在驗證器進行驗證時,不需要顯示地生成自然語言反饋,讓推理過程更高效。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

ORM 任務表現明顯提升

總得來看,研究人員在訓練階段添加了 30K 的自然語言反饋數據,為 Mistral-7B 驗證器帶來了數學能力的提升,在 Best-of-256 的實驗設置下:iiT28資訊網——每日最新資訊28at.com

在 ORM 的設置下,MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數據集從 86.2% 提升到 87.3%,在 MATH 數據集從 35.9% 提升到 37.4%。iiT28資訊網——每日最新資訊28at.com

在 PRM 的設置下,MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數據集從 87.1% 提升到 87.6%,在 MATH 數據集從 36.7% 提升到 37.8%。iiT28資訊網——每日最新資訊28at.com

在與 Self-Consistency 結合的設置下,MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數據集從 87.1% 提升到 88.2%,在 MATH 數據集從 37.8% 提升到 38.6%。iiT28資訊網——每日最新資訊28at.com

在 ORM 和 PRM 任務設置中,Math-Minos 均展現出了優越的性能,特別是在 ORM 設置中,其改進更為顯著。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

另外,研究團隊還對生成器在步驟級別產生的錯誤進行了深入分析,將其歸類為五種類型 —— 無關錯誤、累積錯誤、計算錯誤、邏輯錯誤和其他錯誤。iiT28資訊網——每日最新資訊28at.com

分析結果表明,在多步驟推理中,步驟錯誤的可能原因有很多種,而且模型在這些錯誤類型中都有可能出錯,這進一步強調了引入自然語言反饋來指導模型學習的重要性。iiT28資訊網——每日最新資訊28at.com

實驗發現,在兩個數據集上,累積錯誤(即一個步驟的錯誤很可能直接導致所有后續步驟的錯誤)在所有錯誤類型中占到的比例最高。iiT28資訊網——每日最新資訊28at.com

不同數據集上的錯誤分布也有不同的特點,在相對簡單的 GSM8K 上,計算錯誤更多;在更困難的 MATH 數據集上,邏輯錯誤更多。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

通過構建元評估集,研究團隊評估了驗證器在沒有生成器影響下,準確判斷最終答案的能力。iiT28資訊網——每日最新資訊28at.com

結果顯示,Math-Minos 在訓練過程中的元評估一致優于傳統的 ORM,并且展現出更快的收斂速度和更精準的判斷能力。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

同時實驗結果也表明,Math-Minos 具有很強的 Scale Up 的潛力。iiT28資訊網——每日最新資訊28at.com

iiT28資訊網——每日最新資訊28at.com

總之,Math-Minos 的開發不僅提升了數學驗證器的性能,更為自然語言處理領域提供了一種新的訓練范式。iiT28資訊網——每日最新資訊28at.com

研究團隊希望這項工作能夠啟發未來研究,探索自然語言反饋與分類式驗證器的潛在整合,推動大型語言模型在復雜推理任務上的能力。iiT28資訊網——每日最新資訊28at.com

論文地址:iiT28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2406.14024iiT28資訊網——每日最新資訊28at.com

GitHub:iiT28資訊網——每日最新資訊28at.com

https://github.com/KbsdJames/MATH-MinosiiT28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:關注前沿科技iiT28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-5086-0.html北大千問團隊推出數學專用版 CriticGPT,“找茬”讓大模型進步更快

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 騰訊智影小程序上線 AI 視頻功能,限時免費一鍵生成風格化視頻

下一篇: 古爾曼:蘋果首款支持 Apple Intelligence 的智能家居設備將是一款桌面機器人

標簽:
  • 熱門焦點
  • 三院士三教授熱聊元宇宙&——AIGC,學術界怎么看?

    來源:清元宇宙在近日舉辦的中國江寧2023元宇宙產業·人才高峰論壇暨AIGC發展大會上,中國工程院院士譚建榮、劉韻潔、鄭緯民出席并發表了主旨演講。除了三大院士,還有清華
  • 文心一言排名墊底,卻成為百度業績增長杠桿

    文/侯煜編輯/羅卿知識增強大預言模式文心一言發布后,百度公司熱度大幅提升,文心一言到底能為百度的業績帶來多大的增益成為業內關注焦點。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 花房集團上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集團在港交所成功上市,首日便受到追捧,當日最高漲幅達28.75%。繼360、360數科、魯大師后,這是“紅衣教主”周
  • 元宇宙將會如何塑造未來的工作方式?

    科幻小說家尼爾·斯蒂芬森 (Neal Stephenson) 在1992年就創造了“元宇宙”一詞,但事實上,在Facebook將其更名為Meta以反映其將這一科幻愿景變為現實的戰略重點之
  • 網易音樂、理想申請元宇宙商標被駁回,“啫喱”暫停新用戶進入

    【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse,旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
  • 冰墩墩還能火多久?

    作者:田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰,冰墩墩當仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推,以及日
  • 高通成立歐洲XR實驗室;ICICB計劃進軍元宇宙......

    擴展現實(XR)通過計算機將真實與虛擬相結合,打造了一個可人機交互的虛擬環境,將AR、VR、MR多種技術相融合,為體驗者帶來了虛擬世界與現實世界之間無縫轉換的“沉浸
  • 元宇宙收割了誰

    作者:曉宇資本將元宇宙看作下一代互聯網的門票,畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里,先是號稱元宇宙第一股的沙盒游戲Roblox盛裝
  • Staking 收益翻倍?

    以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計,在 1 月份以太坊網絡合并后,持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準
Top 主站蜘蛛池模板: 乐陵市| 萝北县| 隆林| 吴江市| 宜兰县| 惠安县| 密云县| 汽车| 唐山市| 浦东新区| 肇东市| 长子县| 清苑县| 安阳市| 博白县| 启东市| 县级市| 桦川县| 宁阳县| 桑植县| 汉寿县| 兰考县| 封开县| 冕宁县| 兴城市| 威宁| 仲巴县| 黑山县| 临海市| 内丘县| 聂荣县| 吉安市| 惠东县| 定陶县| 长丰县| 安远县| 通城县| 石嘴山市| 荔浦县| 绍兴市| 高雄县|