快科技9月18日消息,近日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1研究論文登上國際權威期刊《Nature》封面,DeepSeek在論文中正面回應了有關模型蒸餾的質疑。
DeepSeek表示,DeepSeek-V3-Base的訓練數據僅來自普通網頁和電子書,不包含任何合成數據,在預訓練冷卻階段,也沒有故意加入OpenAI生成的合成數據,此階段使用的數據都是通過網頁抓取的。
不過,DeepSeek也承認已觀察到一些網頁包含大量OpenAI模型生成的答案,這可能導致基礎模型間接受益于其他強大模型的知識。
此外,DeepSeek-V3-Base的數據截止時間為2024年7月,當時尚未發布任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。
DeepSeek還強調,R1并非通過復制OpenAI模型生成的推理示例來學習,只是和大多數其他大語言模型一樣,R1的基礎模型是在網絡上訓練的,因此它會吸收互聯網上已有的AI生成的內容。
研究團隊采用了純強化學習框架,并引入組相對策略優化算法,僅依據終答案的正確與否給予獎勵,而非讓模型模仿人類推理路徑,讓模型在實踐中自然涌現出自我反思、自我驗證等高級行為。
Hugging Face的機器學習工程師Lewis Tunstall也表示,現有證據已相當明確地表明,僅使用純強化學習即可獲得極高性能,DeepSeek的推理方案可能足夠優秀而無須使用OpenAI模型進行蒸餾。

本文鏈接:http://www.www897cc.com/showinfo-17-182482-0.htmlDeepSeek首次回應蒸餾OpenAI質疑 :沒有故意加入合成數據
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com