當前位置：首頁 > 元宇宙 > AI

北大千問團隊推出數學專用版 CriticGPT，“找茬”讓大模型進步更快

來源：責編：時間：2024-07-11 17:26:16 159觀看

導讀批評不僅能讓人進步，也能讓大模型的能力提升。OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前幾天，北大聯合千問等團隊以類似的思路設計出了“數學專用版”CriticGPT。

批評不僅能讓人進步，也能讓大模型的能力提升。

OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前幾天，北大聯合千問等團隊以類似的思路設計出了“數學專用版”CriticGPT。

在無需訓練的設置下，驗證器能夠在推理時輔助模型在 GSM8K 上的準確率從 86.6% 提升到 88.2%。

在 GSM8K 數據集上，它可以讓模型的準確率從 86.6% 提升到 88.2%。

CriticGPT 的核心思路是在代碼中故意設置 bug 并進行詳細標注，然后用得到的數據訓練出會 debug 的模型。

北大團隊發現，這種方法不僅在代碼當中有用，也能幫助語言模型解決數學問題。

于是團隊利用相似的思路，把代碼換成數學問題，推出了“數學版 CriticGPT”——Math-Minos。

用 GPT4 逐步提出修正意見

在數學推理領域，驗證解決方案的正確性，是確保推理質量的關鍵步驟。

然而，現有的數學驗證器大多依賴于二元分類標簽進行訓練，這種方式在提供正確或錯誤原因的解釋上存在明顯不足，無法給驗證器提供足夠充分的監督信號來訓練。

Math-Minos 則克服了這一局限，提供了更深入的解釋，極大地豐富了驗證器的訓練信息。

它引入了逐步的自然語言反饋作為理由標簽，不僅指出了解決方案的正誤，還能逐步分析出錯誤的原因。

在自然語言反饋的獲取上，研究團隊一開始使用 GPT-4 生成訓練數據，但通過實驗發現，即使是 GPT-4，在逐步評價數學推理任務時也會出現一定比例的錯誤。

為了一定程度避免這個問題，研究人員通過在提示中引入步驟級別的二元分類標簽，簡化了 GPT-4 的任務，使得 GPT-4 能夠更準確地生成評估。

首先，通過監督式微調，使用自然語言反饋作為訓練數據，有效提升了模型的評估能力。

其次，通過標準的 ORM（Outcome Reward Model，輸出獎勵模型）和 PRM（Process Reward Model，過程獎勵模型）訓練，實現了高效的推理，這種做法有兩個好處。

一是通過兩階段訓練，可以將二分類數據和監督微調數據解耦。

由于監督信號的稀疏性，訓練二分類的數據往往遠多于監督微調的數據，而研究發現，僅需要少量的監督微調數據，就可以很大程度提升模型的評估能力。

另一方面，在驗證器進行驗證時，不需要顯示地生成自然語言反饋，讓推理過程更高效。

ORM 任務表現明顯提升

總得來看，研究人員在訓練階段添加了 30K 的自然語言反饋數據，為 Mistral-7B 驗證器帶來了數學能力的提升，在 Best-of-256 的實驗設置下：

在 ORM 的設置下，MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數據集從 86.2% 提升到 87.3%，在 MATH 數據集從 35.9% 提升到 37.4%。

在 PRM 的設置下，MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數據集從 87.1% 提升到 87.6%，在 MATH 數據集從 36.7% 提升到 37.8%。

在與 Self-Consistency 結合的設置下，MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數據集從 87.1% 提升到 88.2%，在 MATH 數據集從 37.8% 提升到 38.6%。

在 ORM 和 PRM 任務設置中，Math-Minos 均展現出了優越的性能，特別是在 ORM 設置中，其改進更為顯著。

另外，研究團隊還對生成器在步驟級別產生的錯誤進行了深入分析，將其歸類為五種類型 —— 無關錯誤、累積錯誤、計算錯誤、邏輯錯誤和其他錯誤。

分析結果表明，在多步驟推理中，步驟錯誤的可能原因有很多種，而且模型在這些錯誤類型中都有可能出錯，這進一步強調了引入自然語言反饋來指導模型學習的重要性。

實驗發現，在兩個數據集上，累積錯誤（即一個步驟的錯誤很可能直接導致所有后續步驟的錯誤）在所有錯誤類型中占到的比例最高。

不同數據集上的錯誤分布也有不同的特點，在相對簡單的 GSM8K 上，計算錯誤更多；在更困難的 MATH 數據集上，邏輯錯誤更多。

通過構建元評估集，研究團隊評估了驗證器在沒有生成器影響下，準確判斷最終答案的能力。

結果顯示，Math-Minos 在訓練過程中的元評估一致優于傳統的 ORM，并且展現出更快的收斂速度和更精準的判斷能力。

同時實驗結果也表明，Math-Minos 具有很強的 Scale Up 的潛力。

總之，Math-Minos 的開發不僅提升了數學驗證器的性能，更為自然語言處理領域提供了一種新的訓練范式。

研究團隊希望這項工作能夠啟發未來研究，探索自然語言反饋與分類式驗證器的潛在整合，推動大型語言模型在復雜推理任務上的能力。

論文地址：

https://arxiv.org/abs/2406.14024

GitHub：

https://github.com/KbsdJames/MATH-Minos

本文來自微信公眾號：量子位（ID：QbitAI），作者：關注前沿科技

本文鏈接：http://www.www897cc.com/showinfo-45-5086-0.html北大千問團隊推出數學專用版 CriticGPT，“找茬”讓大模型進步更快

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：騰訊智影小程序上線 AI 視頻功能，限時免費一鍵生成風格化視頻

下一篇：古爾曼：蘋果首款支持 Apple Intelligence 的智能家居設備將是一款桌面機器人

標簽：

熱門焦點

元宇宙里賣酸奶，好炸裂的操作！

作者 | 李東陽來源 | 首席營銷官有沒有發現，當下的熱搜出現一個有意思的現象，那就是“情懷”不知不覺成為了主流，爺青回話題討論性非常高。前有名偵探柯南和優衣庫
英特爾首款加密芯片將于今年上市｜國際動態

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經有兩家公司預訂了這項技術，分別是G
傳騰訊已推出全新XR業務；摩托羅拉正打造5GXR頸戴式計算組件

今日熱點：傳騰訊已推出全新XR業務；摩托羅拉與Verizon合作打造5G XR頸戴式計算組件；小米AR購物導航專利獲授權；VR一體機Simula One放棄眾籌并開放直接預訂；VR游戲《
超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2 月 13 日，美東時間 18:30，有著“美國春晚”之譽的超級碗（Super Bowl）落下帷幕。超級碗是美國國家美式足球聯盟（也稱為國家橄欖球聯盟）的年度冠軍賽，勝者將成為“世
2022年最具關注的9個頭像NFT項目

什么是 PFP NFT 項目？PFP NFT （個人資料圖片NFT）是一組獨特的數字收藏品，人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色，在 Twit
解決NFT流動性問題：一文了解Floor DAO

流動性是證券市場上的一個術語，流動性是指資產在不影響其市場價格的情況下可以轉換為現成現金的效率，流動性最強的資產是現金本身?，F在讓我們試著從流動性的角
這場虛擬發布會，當面“造假”！

英偉達去年4月份那場發布會，你曾看出什么不對勁的地方嗎？你品，你細品——在計算機圖形學頂會SIGGRAPH 2021上，英偉達通過一部紀錄片自曝：那場發布會內藏玄機~你看到
元宇宙不完全是想出來的，而是實打實做出來的

沈陽強調，元宇宙不完全是想出來的，而是靠實打實做出來的；互聯網向三維化升級是已經明確的大方向，這意味著大量的資金和技術會持續涌入?？缛?022年，元宇宙并沒有“
PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

PayPal 近年來一直是加密行業的倡導者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭，已經允許美國和英國的用戶交易或持有比特幣（BTC）、以太坊（ETH）、比特現金（BCH

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

北大千問團隊推出數學專用版 CriticGPT，“找茬”讓大模型進步更快

元宇宙里賣酸奶，好炸裂的操作！

英特爾首款加密芯片將于今年上市｜國際動態

傳騰訊已推出全新XR業務；摩托羅拉正打造5GXR頸戴式計算組件

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

2022年最具關注的9個頭像NFT項目

解決NFT流動性問題：一文了解Floor DAO

這場虛擬發布會，當面“造假”！

元宇宙不完全是想出來的，而是實打實做出來的

PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

最新推薦

「國產良心」NFT嘲諷了誰？

權限風波過后 X2Y2如何挑戰OpenSea？

頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

如何在元宇宙中建立品牌忠誠度

我們為什么需要Web3，距離Web3的實現還有多遠？

TX加入的NFT數字收藏品，元宇宙的破圈之路?

猜你喜歡

熱門推薦

相關資訊