當前位置：首頁 > 元宇宙 > AI

直逼 DeepSeek-R1-32B，UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

來源：責編：時間：2025-02-15 15:48:31 65觀看

導讀 32B 推理模型，僅用 1/8 數(shù)據(jù)，與同尺寸 DeepSeek-R1 打成平手。就在剛剛，來自斯坦福、UC 伯克利、華盛頓大學等機構聯(lián)手發(fā)布了一款 SOTA 級推理模型 ——OpenThinker-32B，并同時開源了高達 114k 的訓練數(shù)據(jù)。項目

32B 推理模型，僅用 1/8 數(shù)據(jù)，與同尺寸 DeepSeek-R1 打成平手。

就在剛剛，來自斯坦福、UC 伯克利、華盛頓大學等機構聯(lián)手發(fā)布了一款 SOTA 級推理模型 ——OpenThinker-32B，并同時開源了高達 114k 的訓練數(shù)據(jù)。

項目主頁：https://www.open-thoughts.ai/blog/scale

Hugging Face：https://huggingface.co/open-thoughts/OpenThinker-32B

數(shù)據(jù)集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

團隊發(fā)現(xiàn)：采用經(jīng) DeepSeek-R1 驗證標注（基于 R1 蒸餾）的大規(guī)模優(yōu)質數(shù)據(jù)集，便可訓練出 SOTA 的推理模型。

具體方法，就是通過數(shù)據(jù)規(guī)模化、推理過程驗證以及模型規(guī)模擴展。

由此得到的 OpenThinker-32B，在數(shù)學、代碼和科學等多個基準測試中，OpenThinker-32B 性能直接碾壓了李飛飛團隊 s1 和 s1.1 模型，直逼 R1-Distill-32B。

值得一提的是，相比于使用了 800k 數(shù)據(jù)（包含 600k 個推理樣本）的 R1-Distill，OpenThinker-32B 僅用了 114k 數(shù)據(jù)，就能拿下幾乎同等的優(yōu)異成績。

結果均通過開源評估框架 Evalchemy 計算得出

除此之外，OpenThinker-32 還把模型權重、數(shù)據(jù)集、數(shù)據(jù)生成代碼、訓練代碼上，全部都給公開了！

數(shù)據(jù)策展

研究人員使用了與之前訓練 OpenThinker-7B 模型相同的 OpenThoughts-114k 數(shù)據(jù)集來訓練 OpenThinker-32B。

他們利用 DeepSeek-R1 模型，收集了精心挑選的 17.3 萬個問題的推理過程和解答嘗試。然后將這些原始數(shù)據(jù)作為 OpenThoughts-Unverfied-173k 數(shù)據(jù)集公開發(fā)布。

整個流程的最后一步是，如果推理過程未能通過驗證，就過濾掉相應的數(shù)據(jù)樣本。

下圖可視化地展示了整個過程。

研究團隊首先輸入源數(shù)據(jù)或問題提示，這些內容可以來自不同的領域和平臺，如 BAAI / TACO、DeepMind、Python 提交等，涉及代碼、謎題、科學和數(shù)學等多個方面。

接著這些多元的輸入會進入核心的處理模塊 ——DeepSeek-R1，在這里對數(shù)據(jù)進行分析與處理。這些問題會被分成三個方面，分別是：科學類問題、數(shù)學與謎題和代碼。

有些結果不需要驗證，可能是簡單的分析或直接輸出。對于一些需要深入驗證的內容，利用大語言模型（LLM）采用與 GT（Ground Truth）對比的方式進行評判。如果是代碼，執(zhí)行代碼并進行單元測試，確保代碼的正確性和有效性。

最后能將不同方向的結果結合起來，生成開放的思考和更為綜合的解決方案。

研究團隊更新了最終的 OpenThoughts-114k 數(shù)據(jù)集，加入了一個名為「metadata」的配置，其中包含了一些用于數(shù)據(jù)集構建的額外列：

problem

ground_truth_solution

test_cases (code only)

starter_code (code only)

DeepSeek_reasoning

DeepSeek_solution

domain

source

這些額外的元數(shù)據(jù)將使得這個數(shù)據(jù)集更容易用于新的場景，例如數(shù)據(jù)過濾、領域切換、驗證檢查以及更改推理過程的模板。

這些額外的元數(shù)據(jù)將得使該數(shù)據(jù)集使用起來更加容易，僅需一行代碼就能完成例如過濾、更換領域、檢查驗證和更改推理跟蹤模板等。

load_dataset("open-thoughts/OpenThoughts-114k","metadata",split="train")

研究團隊表示，他們期待看到社區(qū)利用這些問題和標準答案，在 OpenThinker 模型上進行強化學習（RL）的研究。DeepScaleR 已經(jīng)證明，規(guī)模較小時，這種方法效果特別好。

驗證

為了得到最終的 OpenThoughts-114k 數(shù)據(jù)集，研究團隊對答案進行了驗證，并剔除了不正確的回答。

如下表所示，保留那些未通過驗證的推理過程可能會損害性能，盡管未經(jīng)驗證的模型與其他 32B 推理模型相比仍然表現(xiàn)良好。

驗證的作用在于，在擴大訓練提示集的多樣性和規(guī)模的同時，保持 R1 注釋的質量。另一方面，未經(jīng)驗證的數(shù)據(jù)可以更容易地擴展，因此也值得進一步探索。

對于代碼問題，他們通過對照已有的測試用例來驗證解答嘗試，從而完成推理過程的驗證。

受到代碼執(zhí)行過程中所面臨挑戰(zhàn)的啟發(fā)，他們在 Curator 中實現(xiàn)了一個代碼執(zhí)行框架，使用戶能夠大規(guī)模、安全地執(zhí)行代碼，并對照預期輸出進行驗證。

對于數(shù)學問題，研究團隊使用一個 LLM（大語言模型）評判器來進行驗證，它會同時接收標準答案和 DeepSeek-R1 的解答嘗試。

結果發(fā)現(xiàn)，在數(shù)據(jù)生成過程中，使用 LLM 評判器而不是更嚴格的解析引擎（Math-Verify）進行驗證，可以獲得更高的有效數(shù)據(jù)率，并能訓練出性能更好的下游模型。

訓練

研究團隊使用 LLaMa-Factory 對 Qwen2.5-32B-Instruct 在 OpenThoughts-114k 數(shù)據(jù)集上進行了三輪微調，上下文長度為 16k。完整訓練配置可在 GitHub 中找到。

OpenThinker-32B 在 AWS SageMaker 集群上使用四個 8xH100 P5 節(jié)點訓練了 90 小時，累計使用了 2,880 個 H100 小時。

同時，OpenThinker-32B-Unverified 在 Leonardo 超級計算機上使用 96 個 4xA100 節(jié)點（每個 GPU64GB）訓練了 30 小時，累計使用了 11,520 個 A100 小時。

評估

研究團隊使用開源評估庫 Evalchemy（煉金術）對所有模型進行評估。

對于 AIME24 和 AIME25，他們通過平均五次運行的結果來計算準確率。評估配置使用 0.7 的溫度參數(shù)，將模型響應限制在 32,768 個 token 以內，不添加任何額外的系統(tǒng)或用戶提示詞，也不使用任何特殊的解碼策略（如預算強制）。

當啟動 OpenThoughts 項目時，他們設定了一個目標，即創(chuàng)建一個性能可以達到 DeepSeek-R1-Distill-Qwen-32B 的開放數(shù)據(jù)模型。

現(xiàn)在這個差距已經(jīng)幾乎消除。

最后，研究團隊為社區(qū)在過去幾周在構建開放數(shù)據(jù)推理模型方面取得的快速進展感到振奮，并期待基于彼此的洞見繼續(xù)向前發(fā)展。

OpenThinker-32B 的開源，證明了數(shù)據(jù)、驗證和模型規(guī)模的協(xié)同作用是提升推理能力的關鍵。

這一成果不僅推動了開源推理模型的發(fā)展，也為整個 AI 社區(qū)提供了寶貴的資源和啟示。

本文來自微信公眾號：新智元（ID：AI_era），原標題《直逼 DeepSeek-R1-32B，碾壓李飛飛 s1！UC 伯克利等開源全新 SOTA 推理模型》

本文鏈接：http://www.www897cc.com/showinfo-45-10780-0.html直逼 DeepSeek-R1-32B，UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：阿里巴巴蔡崇信：AI 競爭很激烈，DeepSeek 轉變行業(yè)思路

下一篇： 4S店強制買車險？學會這句話，委婉拒絕不糾結！

標簽：

熱門焦點

10億基金，李彥宏呼喚下一個AI獨角獸

©?深響原創(chuàng) · 作者｜何文 AI太熱了。在海外，OpenAI估值已超270億美元、英偉達市值破萬億、微軟把GPT整合進了全線產(chǎn)品。在國內，百度、阿里、華為、商湯等大公司，以及
三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

來源：清元宇宙在近日舉辦的中國江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會上，中國工程院院士譚建榮、劉韻潔、鄭緯民出席并發(fā)表了主旨演講。除了三
刷完一場元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰(zhàn)場？

2月21日，2022中國·金魚嘴元宇宙生態(tài)賦能大會在南京建鄴區(qū)金魚嘴基金街區(qū)舉辦，南京建鄴區(qū)金魚嘴基金街區(qū)宣布計劃出資1億元，支持元宇宙行業(yè)發(fā)展。同時，會上發(fā)布了
NFT藝術家Hayley Rincon 專訪：我的迷幻數(shù)字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創(chuàng)作者，她的作品呈現(xiàn)出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數(shù)字藝術之路。Hayley是加利福尼亞灣區(qū)的有
過去女性在互聯(lián)網(wǎng)領域是半邊天，在Web3，將會是整片天！

Web 2.0 是由幾家“直男”大公司塑造的。接下來的Web3世界中，如果女性在創(chuàng)造性方面發(fā)揮更大的作用，可能會讓這個新時代更受歡迎、更安全和公平。當我們談論 Web3
這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

前米高梅首席執(zhí)行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室，提供 NFT，讓持有者在制作中發(fā)揮作用Electromagnetic Productions 創(chuàng)始
頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

特別聲明，我們的文章不作為投資建議，請各位讀者獨立思考，還是那句話：投資要慎之又慎，誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
百度虛擬人——AI手語主播首次亮相冬奧會！

除了火遍全國的冰墩墩，虛擬人也成為這屆冬奧會的一大亮點元素。以體育明星谷愛凌為原型的數(shù)智人Meet Gu最先亮相。在2月5日谷愛凌首秀、2月7日谷愛凌首金的兩天

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

直逼 DeepSeek-R1-32B，UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

10億基金，李彥宏呼喚下一個AI獨角獸

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

刷完一場元宇宙世界杯音樂盛典，我爽了

多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰(zhàn)場？

NFT藝術家Hayley Rincon 專訪：我的迷幻數(shù)字藝術之路

過去女性在互聯(lián)網(wǎng)領域是半邊天，在Web3，將會是整片天！

這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

百度虛擬人——AI手語主播首次亮相冬奧會！

最新推薦

從科幻走進現(xiàn)實，元宇宙概念逐漸清晰

Kitten Coup社區(qū)反轉Cool Kittens NFT騙局

NFT世界的藝術家名單

韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

NFT行業(yè)周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

售出6930萬美元的NFT已經(jīng)過去一年，NFT如今是否已成為主流？

猜你喜歡

熱門推薦

相關資訊