2 月 12 日晚間消息,在中國(guó) AI 公司的影響下,OpenAI 公開(kāi)了 O 系列強(qiáng)化學(xué)習(xí)的秘密。
今天(2 月 12 日),OpenAI 發(fā)布了關(guān)于推理模型在競(jìng)技編程中應(yīng)用的研究論文報(bào)告《Competitive Programming with Large Reasoning Models》,文中放出了 OpenAI 三個(gè)推理模型:o1、o1-ioi、o3 在 IOI(國(guó)際信息學(xué)奧林匹克競(jìng)賽)和 CodeForces(全球知名在線編程競(jìng)賽)中的成績(jī)。
論文顯示,在 IOI 2024 中,o3 在嚴(yán)格規(guī)則下拿到 395.64 分,達(dá)成金牌成就,并且在 CodeForces 上的表現(xiàn)與人類精英選手相當(dāng)。
論文中還提到,中國(guó)的 DeepSeek-R1 和 Kimik1.5 通過(guò)獨(dú)立研究顯示,利用思維鏈學(xué)習(xí)(COT)方法,可顯著提升模型在數(shù)學(xué)解題與編程挑戰(zhàn)中的綜合表現(xiàn)。R1、k1.5 是 DeepSeek 和 Kimi 在 1 月 20 日同時(shí)發(fā)布的新型推理模型。
該論文通過(guò)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的大型語(yǔ)言模型在復(fù)雜編碼和推理任務(wù)上的性能提升,比較了通用推理模型與針對(duì)特定領(lǐng)域優(yōu)化的系統(tǒng)在競(jìng)技編程中的表現(xiàn)。研究結(jié)果表明,增加強(qiáng)化學(xué)習(xí)訓(xùn)練計(jì)算和測(cè)試時(shí)計(jì)算可顯著提升模型性能,使其接近世界頂尖人類選手,這些模型將在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的 AI 應(yīng)用中解鎖新的應(yīng)用體驗(yàn)。
本文鏈接:http://www.www897cc.com/showinfo-45-10742-0.htmlOpenAI 最新論文:o3 在 IOI 2024 嚴(yán)格規(guī)則下拿到 395.64 分達(dá)成金牌成就
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: AI 芯片廠商 Cerebras 部署 DeepSeek 服務(wù)爆單,降低成本反而擴(kuò)大市場(chǎng)容量