英偉達(dá)近日宣布了一項(xiàng)重大進(jìn)展,推出了其全新的推理模型套件——OpenReasoning-Nemotron。這一套件內(nèi)嵌了四個精心構(gòu)建的模型,它們均基于Qwen-2.5進(jìn)行微調(diào),參數(shù)規(guī)模覆蓋1.5B至32B不等,源頭直指擁有6710億參數(shù)的龐然大物——DeepSeek R1 0528大模型。通過“蒸餾”技術(shù),英偉達(dá)成功實(shí)現(xiàn)了大模型的輕量化,使得這些推理模型能夠在標(biāo)準(zhǔn)游戲電腦上流暢運(yùn)行,極大地降低了部署門檻,繞開了高昂的GPU與云計算成本。
OpenReasoning-Nemotron的核心競爭力并不在于訓(xùn)練技術(shù)的突破性創(chuàng)新,而是源于其背后強(qiáng)大的數(shù)據(jù)支撐。英偉達(dá)利用NeMo Skills精心打造了500萬個涵蓋數(shù)學(xué)、科學(xué)與編程領(lǐng)域的解答數(shù)據(jù)集,通過純監(jiān)督學(xué)習(xí)的方式對模型進(jìn)行微調(diào)。經(jīng)過嚴(yán)格測試,32B模型在數(shù)學(xué)競賽AIME24中斬獲89.2分,在HMMT 2月賽中亦獲得73.8分,即便是參數(shù)最少的1.5B模型,也分別取得了55.5分和31.5分的佳績,充分展現(xiàn)了其卓越的推理與解題能力。
英偉達(dá)將OpenReasoning-Nemotron定位為科研探索的強(qiáng)大助力,四個模型的完整檢查點(diǎn)將在Hugging Face平臺開放下載,為研究人員提供了強(qiáng)化學(xué)習(xí)等進(jìn)一步實(shí)驗(yàn)的堅實(shí)基礎(chǔ),同時也便于他們針對特定任務(wù)進(jìn)行定制優(yōu)化。該模型還支持“GenSelect模式”,即針對每個問題生成多種解答版本,通過篩選最優(yōu)解來進(jìn)一步提升準(zhǔn)確率。在這一模式下,32B模型在多項(xiàng)數(shù)學(xué)與編程基準(zhǔn)測試中,表現(xiàn)甚至超越了OpenAI的o3-high水平。
尤為英偉達(dá)在訓(xùn)練這些模型時,全程未引入強(qiáng)化學(xué)習(xí),僅采用監(jiān)督微調(diào)的方式,為社區(qū)提供了一個干凈且技術(shù)前沿的起點(diǎn),為未來的強(qiáng)化學(xué)習(xí)相關(guān)研究開辟了廣闊空間。對于擁有高性能游戲GPU的玩家及個人開發(fā)者而言,這套模型無疑是一個巨大的福音,使他們能夠在本地運(yùn)行接近業(yè)界最先進(jìn)水平的推理模型,極大地推動了推理技術(shù)的發(fā)展與普及。
本文鏈接:http://www.www897cc.com/showinfo-26-171575-0.html英偉達(dá)發(fā)布OpenReasoning-Nemotron套件:輕量級推理模型助力科研探索
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com