據(jù)南華早報(bào)和彭博(Bloomberg)報(bào)道,深度求索(DeepSeek)與清華大學(xué)研究人員合作,開發(fā)出一種新的強(qiáng)化學(xué)習(xí)技術(shù)。該技術(shù)能夠降低AI模型的訓(xùn)練成本,同時(shí)提升其性能。
研究人員發(fā)布了一篇論文,詳細(xì)探討了如何通過延長推理時(shí)間來改善大型語言模型(LLM)的回答準(zhǔn)確度。在減少運(yùn)算資源消耗的同時(shí),這一技術(shù)能夠提供更加貼近人類需求的答案。目前,大多數(shù)主流AI模型采用強(qiáng)化學(xué)習(xí)方法,通過模型與環(huán)境的交互以及獎(jiǎng)勵(lì)機(jī)制來完成學(xué)習(xí)。
在此次研究中,DeepSeek和清華大學(xué)設(shè)計(jì)出一種名為DeepSeek-GRM(生成式獎(jiǎng)勵(lì)模型;Generative Reward Modeling)的技術(shù)。該技術(shù)基于點(diǎn)狀生成式獎(jiǎng)勵(lì)模型(pointwise generative reward modeling),能夠以統(tǒng)一的方式評(píng)估模型的回應(yīng)。此外,研究人員還提出了一種名為SPCT(Self-Principled Critique Tuning)的訓(xùn)練方法,使DeepSeek-GRM能夠針對(duì)特定查詢和回應(yīng)自動(dòng)提出相應(yīng)原則,并依據(jù)這些原則進(jìn)行評(píng)估。
研究結(jié)果顯示,DeepSeek-GRM在多項(xiàng)基準(zhǔn)測試中表現(xiàn)出色,相較于傳統(tǒng)獎(jiǎng)勵(lì)模型,其偏差更小。DeepSeek表示,DeepSeek-GRM模型將進(jìn)行開源發(fā)布。
值得一提的是,DeepSeek此前推出的基礎(chǔ)模型V3和推理模型R1曾引發(fā)科技界的廣泛關(guān)注。據(jù)路透(Reuters)援引知情人士的消息,下一代推理模型R2可能會(huì)比原定的5月更早發(fā)布,其程序設(shè)計(jì)能力將大幅提升。
本文鏈接:http://www.www897cc.com/showinfo-27-142479-0.htmlDeepSeek聯(lián)合清華大學(xué)推出AI模型訓(xùn)練新技術(shù),將開源發(fā)布
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Cassava計(jì)劃在非洲部署1.2萬顆GPU,攜手NVIDIA共建AI工廠
下一篇: 漢翔首季接單超85億,積極開拓民用航空市場
標(biāo)簽: