近期,AI領(lǐng)域迎來新進(jìn)展,DeepSeek公司發(fā)布了其R1推理AI模型的最新升級版。該版本在多個數(shù)學(xué)及編程領(lǐng)域的基準(zhǔn)測試中表現(xiàn)搶眼,引發(fā)了廣泛關(guān)注。然而,圍繞其訓(xùn)練數(shù)據(jù)源的謎團(tuán),卻讓部分AI研究人員心生疑慮。
據(jù)悉,有開發(fā)者發(fā)現(xiàn)DeepSeek的R1-0528模型在表達(dá)風(fēng)格上與Google的Gemini AI系列存在諸多相似之處。墨爾本的開發(fā)者Sam Paeach指出,從用詞到句式,兩者間有著難以忽視的一致性。更令人矚目的是,匿名SpeechMap項目創(chuàng)始人也透露,DeepSeek模型在推理時展現(xiàn)出的“思考路徑”與Gemini驚人地相似,這進(jìn)一步加劇了業(yè)界對于DeepSeek訓(xùn)練數(shù)據(jù)源的猜測。
事實上,這并非DeepSeek首次陷入此類爭議。去年12月,其V3模型因頻繁誤認(rèn)自己為OpenAI的ChatGPT而飽受批評,這一行為讓人懷疑其是否利用了ChatGPT的聊天記錄進(jìn)行訓(xùn)練。今年早些時候,OpenAI公開表示,已發(fā)現(xiàn)DeepSeek涉嫌使用“數(shù)據(jù)蒸餾”技術(shù)的證據(jù)。據(jù)彭博社報道,微軟在2024年底察覺到,一些通過OpenAI開發(fā)者賬戶泄露的數(shù)據(jù)可能與DeepSeek有關(guān)。
盡管“數(shù)據(jù)蒸餾”在AI界并不鮮見,但OpenAI對此有著嚴(yán)格的限制,禁止用戶利用模型輸出開發(fā)競品。然而,在開放網(wǎng)絡(luò)環(huán)境中,由于大量低質(zhì)量內(nèi)容的存在,AI模型間相互模仿用詞和措辭的現(xiàn)象并不罕見,這無疑為追蹤真實訓(xùn)練數(shù)據(jù)增添了難度。
對此,人工智能專家Nathan Lambert表示,DeepSeek使用Google Gemini數(shù)據(jù)進(jìn)行訓(xùn)練的可能性并非空穴來風(fēng)。他指出,DeepSeek資金雄厚,完全有能力利用市面上最先進(jìn)的API模型生成合成數(shù)據(jù)。為了應(yīng)對數(shù)據(jù)提煉帶來的風(fēng)險,AI公司們正不斷強(qiáng)化安全措施。OpenAI已要求組織在完成身份驗證后才能訪問高級模型,而Google也在提升其AI Studio平臺的安全性,限制對模型內(nèi)部運(yùn)行軌跡的訪問權(quán)限。
本文鏈接:http://www.www897cc.com/showinfo-45-13394-0.htmlDeepSeek新AI模型性能卓越,是否暗藏Google Gemini數(shù)據(jù)訓(xùn)練之謎?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com