日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 芯片

DeepSeek聯(lián)合清華大學(xué)推出AI模型訓(xùn)練新技術(shù),將開源發(fā)布

來源:icspec 責(zé)編: 時(shí)間:2025-04-09 07:29:59 58觀看
導(dǎo)讀據(jù)南華早報(bào)和彭博(Bloomberg)報(bào)道,深度求索(DeepSeek)與清華大學(xué)研究人員合作,開發(fā)出一種新的強(qiáng)化學(xué)習(xí)技術(shù)。該技術(shù)能夠降低AI模型的訓(xùn)練成本,同時(shí)提升其性能。研究人員發(fā)布了一篇論文,詳細(xì)探討了如何通過延長推理時(shí)間來改善
據(jù)南華早報(bào)和彭博(Bloomberg)報(bào)道,深度求索(DeepSeek)與清華大學(xué)研究人員合作,開發(fā)出一種新的強(qiáng)化學(xué)習(xí)技術(shù)。該技術(shù)能夠降低AI模型的訓(xùn)練成本,同時(shí)提升其性能。
研究人員發(fā)布了一篇論文,詳細(xì)探討了如何通過延長推理時(shí)間來改善大型語言模型(LLM)的回答準(zhǔn)確度。在減少運(yùn)算資源消耗的同時(shí),這一技術(shù)能夠提供更加貼近人類需求的答案。目前,大多數(shù)主流AI模型采用強(qiáng)化學(xué)習(xí)方法,通過模型與環(huán)境的交互以及獎(jiǎng)勵(lì)機(jī)制來完成學(xué)習(xí)。
在此次研究中,DeepSeek和清華大學(xué)設(shè)計(jì)出一種名為DeepSeek-GRM(生成式獎(jiǎng)勵(lì)模型;Generative Reward Modeling)的技術(shù)。該技術(shù)基于點(diǎn)狀生成式獎(jiǎng)勵(lì)模型(pointwise generative reward modeling),能夠以統(tǒng)一的方式評(píng)估模型的回應(yīng)。此外,研究人員還提出了一種名為SPCT(Self-Principled Critique Tuning)的訓(xùn)練方法,使DeepSeek-GRM能夠針對(duì)特定查詢和回應(yīng)自動(dòng)提出相應(yīng)原則,并依據(jù)這些原則進(jìn)行評(píng)估。
研究結(jié)果顯示,DeepSeek-GRM在多項(xiàng)基準(zhǔn)測試中表現(xiàn)出色,相較于傳統(tǒng)獎(jiǎng)勵(lì)模型,其偏差更小。DeepSeek表示,DeepSeek-GRM模型將進(jìn)行開源發(fā)布。
值得一提的是,DeepSeek此前推出的基礎(chǔ)模型V3和推理模型R1曾引發(fā)科技界的廣泛關(guān)注。據(jù)路透(Reuters)援引知情人士的消息,下一代推理模型R2可能會(huì)比原定的5月更早發(fā)布,其程序設(shè)計(jì)能力將大幅提升。

本文鏈接:http://www.www897cc.com/showinfo-27-142479-0.htmlDeepSeek聯(lián)合清華大學(xué)推出AI模型訓(xùn)練新技術(shù),將開源發(fā)布

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: Cassava計(jì)劃在非洲部署1.2萬顆GPU,攜手NVIDIA共建AI工廠

下一篇: 漢翔首季接單超85億,積極開拓民用航空市場

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 红河县| 承德县| 和龙市| 湖南省| 亚东县| 德安县| 太和县| 陈巴尔虎旗| 镇安县| 博湖县| 神农架林区| 建平县| 沙坪坝区| 石屏县| 庐江县| 鹿邑县| 恩平市| 青海省| 顺义区| 龙南县| 乐清市| 蕉岭县| 丰城市| 明光市| 承德县| 阜康市| 东莞市| 鸡西市| 克拉玛依市| 扬中市| 洮南市| 岑巩县| 余江县| 海原县| 文山县| 容城县| 咸丰县| 突泉县| 泾川县| 黑河市| 池州市|