日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

直逼 DeepSeek-R1-32B,UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

來源: 責編: 時間:2025-02-15 15:48:31 65觀看
導讀 32B 推理模型,僅用 1/8 數(shù)據(jù),與同尺寸 DeepSeek-R1 打成平手。就在剛剛,來自斯坦福、UC 伯克利、華盛頓大學等機構聯(lián)手發(fā)布了一款 SOTA 級推理模型 ——OpenThinker-32B,并同時開源了高達 114k 的訓練數(shù)據(jù)。項目

32B 推理模型,僅用 1/8 數(shù)據(jù),與同尺寸 DeepSeek-R1 打成平手。u8c28資訊網(wǎng)——每日最新資訊28at.com

就在剛剛,來自斯坦福、UC 伯克利、華盛頓大學等機構聯(lián)手發(fā)布了一款 SOTA 級推理模型 ——OpenThinker-32B,并同時開源了高達 114k 的訓練數(shù)據(jù)。u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

項目主頁:https://www.open-thoughts.ai/blog/scaleu8c28資訊網(wǎng)——每日最新資訊28at.com

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32Bu8c28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114ku8c28資訊網(wǎng)——每日最新資訊28at.com

團隊發(fā)現(xiàn):采用經(jīng) DeepSeek-R1 驗證標注(基于 R1 蒸餾)的大規(guī)模優(yōu)質數(shù)據(jù)集,便可訓練出 SOTA 的推理模型。u8c28資訊網(wǎng)——每日最新資訊28at.com

具體方法,就是通過數(shù)據(jù)規(guī)模化、推理過程驗證以及模型規(guī)模擴展。u8c28資訊網(wǎng)——每日最新資訊28at.com

由此得到的 OpenThinker-32B,在數(shù)學、代碼和科學等多個基準測試中,OpenThinker-32B 性能直接碾壓了李飛飛團隊 s1 和 s1.1 模型,直逼 R1-Distill-32B。u8c28資訊網(wǎng)——每日最新資訊28at.com

值得一提的是,相比于使用了 800k 數(shù)據(jù)(包含 600k 個推理樣本)的 R1-Distill,OpenThinker-32B 僅用了 114k 數(shù)據(jù),就能拿下幾乎同等的優(yōu)異成績。u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

結果均通過開源評估框架 Evalchemy 計算得出

除此之外,OpenThinker-32 還把模型權重、數(shù)據(jù)集、數(shù)據(jù)生成代碼、訓練代碼上,全部都給公開了!u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)策展

研究人員使用了與之前訓練 OpenThinker-7B 模型相同的 OpenThoughts-114k 數(shù)據(jù)集來訓練 OpenThinker-32B。u8c28資訊網(wǎng)——每日最新資訊28at.com

他們利用 DeepSeek-R1 模型,收集了精心挑選的 17.3 萬個問題的推理過程和解答嘗試。然后將這些原始數(shù)據(jù)作為 OpenThoughts-Unverfied-173k 數(shù)據(jù)集公開發(fā)布。u8c28資訊網(wǎng)——每日最新資訊28at.com

整個流程的最后一步是,如果推理過程未能通過驗證,就過濾掉相應的數(shù)據(jù)樣本。u8c28資訊網(wǎng)——每日最新資訊28at.com

下圖可視化地展示了整個過程。u8c28資訊網(wǎng)——每日最新資訊28at.com

研究團隊首先輸入源數(shù)據(jù)或問題提示,這些內容可以來自不同的領域和平臺,如 BAAI / TACO、DeepMind、Python 提交等,涉及代碼、謎題、科學和數(shù)學等多個方面。u8c28資訊網(wǎng)——每日最新資訊28at.com

接著這些多元的輸入會進入核心的處理模塊 ——DeepSeek-R1,在這里對數(shù)據(jù)進行分析與處理。這些問題會被分成三個方面,分別是:科學類問題、數(shù)學與謎題和代碼。u8c28資訊網(wǎng)——每日最新資訊28at.com

有些結果不需要驗證,可能是簡單的分析或直接輸出。對于一些需要深入驗證的內容,利用大語言模型(LLM)采用與 GT(Ground Truth)對比的方式進行評判。如果是代碼,執(zhí)行代碼并進行單元測試,確保代碼的正確性和有效性。u8c28資訊網(wǎng)——每日最新資訊28at.com

最后能將不同方向的結果結合起來,生成開放的思考和更為綜合的解決方案。u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

研究團隊更新了最終的 OpenThoughts-114k 數(shù)據(jù)集,加入了一個名為「metadata」的配置,其中包含了一些用于數(shù)據(jù)集構建的額外列:u8c28資訊網(wǎng)——每日最新資訊28at.com

problemu8c28資訊網(wǎng)——每日最新資訊28at.com

ground_truth_solutionu8c28資訊網(wǎng)——每日最新資訊28at.com

test_cases (code only)u8c28資訊網(wǎng)——每日最新資訊28at.com

starter_code (code only)u8c28資訊網(wǎng)——每日最新資訊28at.com

DeepSeek_reasoningu8c28資訊網(wǎng)——每日最新資訊28at.com

DeepSeek_solutionu8c28資訊網(wǎng)——每日最新資訊28at.com

domainu8c28資訊網(wǎng)——每日最新資訊28at.com

sourceu8c28資訊網(wǎng)——每日最新資訊28at.com

這些額外的元數(shù)據(jù)將使得這個數(shù)據(jù)集更容易用于新的場景,例如數(shù)據(jù)過濾、領域切換、驗證檢查以及更改推理過程的模板。u8c28資訊網(wǎng)——每日最新資訊28at.com

這些額外的元數(shù)據(jù)將得使該數(shù)據(jù)集使用起來更加容易,僅需一行代碼就能完成例如過濾、更換領域、檢查驗證和更改推理跟蹤模板等。u8c28資訊網(wǎng)——每日最新資訊28at.com

load_dataset("open-thoughts/OpenThoughts-114k","metadata",split="train")

研究團隊表示,他們期待看到社區(qū)利用這些問題和標準答案,在 OpenThinker 模型上進行強化學習(RL)的研究。DeepScaleR 已經(jīng)證明,規(guī)模較小時,這種方法效果特別好。u8c28資訊網(wǎng)——每日最新資訊28at.com

驗證

為了得到最終的 OpenThoughts-114k 數(shù)據(jù)集,研究團隊對答案進行了驗證,并剔除了不正確的回答。u8c28資訊網(wǎng)——每日最新資訊28at.com

如下表所示,保留那些未通過驗證的推理過程可能會損害性能,盡管未經(jīng)驗證的模型與其他 32B 推理模型相比仍然表現(xiàn)良好。u8c28資訊網(wǎng)——每日最新資訊28at.com

驗證的作用在于,在擴大訓練提示集的多樣性和規(guī)模的同時,保持 R1 注釋的質量。另一方面,未經(jīng)驗證的數(shù)據(jù)可以更容易地擴展,因此也值得進一步探索。u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

對于代碼問題,他們通過對照已有的測試用例來驗證解答嘗試,從而完成推理過程的驗證。u8c28資訊網(wǎng)——每日最新資訊28at.com

受到代碼執(zhí)行過程中所面臨挑戰(zhàn)的啟發(fā),他們在 Curator 中實現(xiàn)了一個代碼執(zhí)行框架,使用戶能夠大規(guī)模、安全地執(zhí)行代碼,并對照預期輸出進行驗證。u8c28資訊網(wǎng)——每日最新資訊28at.com

對于數(shù)學問題,研究團隊使用一個 LLM(大語言模型)評判器來進行驗證,它會同時接收標準答案和 DeepSeek-R1 的解答嘗試。u8c28資訊網(wǎng)——每日最新資訊28at.com

結果發(fā)現(xiàn),在數(shù)據(jù)生成過程中,使用 LLM 評判器而不是更嚴格的解析引擎(Math-Verify)進行驗證,可以獲得更高的有效數(shù)據(jù)率,并能訓練出性能更好的下游模型。u8c28資訊網(wǎng)——每日最新資訊28at.com

u8c28資訊網(wǎng)——每日最新資訊28at.com

訓練

研究團隊使用 LLaMa-Factory 對 Qwen2.5-32B-Instruct 在 OpenThoughts-114k 數(shù)據(jù)集上進行了三輪微調,上下文長度為 16k。完整訓練配置可在 GitHub 中找到。u8c28資訊網(wǎng)——每日最新資訊28at.com

OpenThinker-32B 在 AWS SageMaker 集群上使用四個 8xH100 P5 節(jié)點訓練了 90 小時,累計使用了 2,880 個 H100 小時。u8c28資訊網(wǎng)——每日最新資訊28at.com

同時,OpenThinker-32B-Unverified 在 Leonardo 超級計算機上使用 96 個 4xA100 節(jié)點(每個 GPU64GB)訓練了 30 小時,累計使用了 11,520 個 A100 小時。u8c28資訊網(wǎng)——每日最新資訊28at.com

評估

研究團隊使用開源評估庫 Evalchemy(煉金術)對所有模型進行評估。u8c28資訊網(wǎng)——每日最新資訊28at.com

對于 AIME24 和 AIME25,他們通過平均五次運行的結果來計算準確率。評估配置使用 0.7 的溫度參數(shù),將模型響應限制在 32,768 個 token 以內,不添加任何額外的系統(tǒng)或用戶提示詞,也不使用任何特殊的解碼策略(如預算強制)。u8c28資訊網(wǎng)——每日最新資訊28at.com

當啟動 OpenThoughts 項目時,他們設定了一個目標,即創(chuàng)建一個性能可以達到 DeepSeek-R1-Distill-Qwen-32B 的開放數(shù)據(jù)模型。u8c28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在這個差距已經(jīng)幾乎消除。u8c28資訊網(wǎng)——每日最新資訊28at.com

最后,研究團隊為社區(qū)在過去幾周在構建開放數(shù)據(jù)推理模型方面取得的快速進展感到振奮,并期待基于彼此的洞見繼續(xù)向前發(fā)展。u8c28資訊網(wǎng)——每日最新資訊28at.com

OpenThinker-32B 的開源,證明了數(shù)據(jù)、驗證和模型規(guī)模的協(xié)同作用是提升推理能力的關鍵。u8c28資訊網(wǎng)——每日最新資訊28at.com

這一成果不僅推動了開源推理模型的發(fā)展,也為整個 AI 社區(qū)提供了寶貴的資源和啟示。u8c28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era),原標題《直逼 DeepSeek-R1-32B,碾壓李飛飛 s1!UC 伯克利等開源全新 SOTA 推理模型》u8c28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-10780-0.html直逼 DeepSeek-R1-32B,UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 阿里巴巴蔡崇信:AI 競爭很激烈,DeepSeek 轉變行業(yè)思路

下一篇: 4S店強制買車險?學會這句話,委婉拒絕不糾結!

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 拜泉县| 宁武县| 新干县| 饶河县| 平谷区| 陆良县| 波密县| 刚察县| 邵阳市| 庆城县| 道孚县| 安达市| 宜良县| 穆棱市| 竹山县| 托里县| 肇东市| 河南省| 通州区| 扶余县| 铅山县| 大悟县| 吉隆县| 六枝特区| 彰化县| 万全县| 临武县| 福建省| 揭东县| 临海市| 桐城市| 宜丰县| 壶关县| 潼南县| 广元市| 区。| 林甸县| 沅江市| 东丽区| 马龙县| 太保市|