日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

大模型“記性差一點”反而更聰明:金魚損失隨機剔除 token,讓 AI 不再死記硬背

來源: 責編: 時間:2025-09-06 10:46:49 39觀看
導讀 訓練大模型時,有時讓它“記性差一點”,反而更聰明!大語言模型如果不加約束,很容易把訓練數據原封不動地復刻出來。為解決這個問題,來自馬里蘭大學、圖賓根大學和馬普所的研究團隊提出了一個新方法 —— 金魚損失(Go

訓練大模型時,有時讓它“記性差一點”,反而更聰明!g6h28資訊網——每日最新資訊28at.com

大語言模型如果不加約束,很容易把訓練數據原封不動地復刻出來。為解決這個問題,來自馬里蘭大學、圖賓根大學和馬普所的研究團隊提出了一個新方法 —— 金魚損失(Goldfish Loss)。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

顧名思義,金魚損失就是讓模型像金魚一樣,不去死記每一個細節,而是在損失函數計算時隨機剔除一小部分 token。g6h28資訊網——每日最新資訊28at.com

由此,模型不再逐字記住訓練集內容,但仍能學會語言規律。g6h28資訊網——每日最新資訊28at.com

實驗顯示,LLaMA-2 在使用金魚損失后:g6h28資訊網——每日最新資訊28at.com

記憶化內容顯著減少:模型不再復現訓練數據g6h28資訊網——每日最新資訊28at.com

下游任務性能幾乎不受影響:仍然能流暢生成文本g6h28資訊網——每日最新資訊28at.com

用網友的精辟評論概括就是:dropout,但損失函數!g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

在梯度計算中隨機屏蔽部分 token

金魚損失的核心理念非常簡單,就是在模型訓練過程中隨機剔除一部分訓練文本中的 tokens,使其不參與損失計算。g6h28資訊網——每日最新資訊28at.com

這樣一來,當模型在推理階段遇到這些位置時,就只能“猜測”,而不是逐字逐句復現訓練數據的完整序列。g6h28資訊網——每日最新資訊28at.com

此外,為了保證被剔除 token 的一致性,研究人員設計了一種基于哈希(hashing)的掩碼策略。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

那么,這和同樣是防止模型背會的正則化方法有什么不同呢?g6h28資訊網——每日最新資訊28at.com

以 Dropout 這樣的正則化方法為例,它通過在訓練時“加噪聲”來防止模型過度依賴某些參數,從而提高模型舉一反三的能力。g6h28資訊網——每日最新資訊28at.com

但這樣做的問題在于:如果只是隨機丟 token,那么,每次看到同一段落時,丟掉的地方不一樣,模型累計幾次就能拼湊出完整段落。g6h28資訊網——每日最新資訊28at.com

所以,說到底,模型還是靠死記硬背,記住了答案。g6h28資訊網——每日最新資訊28at.com

相比之下,金魚損失則用哈希掩碼確保每次遇到同一段落,掩蓋位置都一樣,這就從根本上阻止了模型復現完整訓練文本。g6h28資訊網——每日最新資訊28at.com

接下來,我們來看金魚損失具體是怎么做的。g6h28資訊網——每日最新資訊28at.com

在傳統的 next-token prediction 中,模型以序列中的下一個真實 token 作為目標,輸出預測分布,并基于該分布計算交叉熵損失。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

在金魚損失下,模型雖然也在前向傳播中預測序列里下一個 token。但在計算損失時,會以一定的概率將某些位置的 token 從損失計算里“抹掉”。g6h28資訊網——每日最新資訊28at.com

也就是說,有些真實的下一個 token 不會作為目標來訓練。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

在這里,研究人員采用了簡單的靜態掩碼(static mask),剔除每序列中的第 4 個 token。g6h28資訊網——每日最新資訊28at.com

更進一步,為了確保模型不會從其他地方學到被掩碼的數據(例如不同的文檔會在不同的網頁中反復出現),研究團隊還提出了一種局部化哈希掩碼(localized hashed mask),使得當相同的前 h 個 token 出現時,掩蓋模式是相同的(可重復)。g6h28資訊網——每日最新資訊28at.com

實驗測試與結果

為了驗證金魚損失確實能防止記憶化,研究團隊設計了兩種實驗場景:g6h28資訊網——每日最新資訊28at.com

一種是極端場景,通過對少量樣本進行多個訓練周期(即重復)來強烈促使記憶化;g6h28資訊網——每日最新資訊28at.com

另一種是標準場景,模擬現實模型訓練中使用的批次處理方式。g6h28資訊網——每日最新資訊28at.com

同時,為了評估模型的記憶化程度,研究采用了以下指標:g6h28資訊網——每日最新資訊28at.com

RougeL 得分:該指標衡量最長公共(非連續)子序列的長度。得分為 1.0 表示完美記憶。g6h28資訊網——每日最新資訊28at.com

精確匹配率(Exact Match):該指標衡量正確預測的序列占真實序列的百分比.g6h28資訊網——每日最新資訊28at.com

實驗表明,在極端場景下,標準訓練導致模型逐字記憶了 100 篇文章中的 84 篇,而金魚損失沒有記憶任何文章。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

注:實驗讓 LLaMA-2-7B 在《哈利?波特》第一章或 100 篇維基百科文檔上進一步訓練了 100 個 epoch

此外,在標準訓練場景下,金魚損失也明顯減少了模型逐字復現訓練語料庫中目標序列的情況。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

但這里可能有個直覺式的反應 —— 如果讓模型“隨機漏學”一些 token,它的能力會不會也隨之降低呢?g6h28資訊網——每日最新資訊28at.com

對此,研究人員進行了測試:研究表明,金魚損失模型、標準損失模型和對照模型之間的總體性能沒有系統性差異。g6h28資訊網——每日最新資訊28at.com

g6h28資訊網——每日最新資訊28at.com

需要注意的是,金魚損失的核心在于忽略部分 token 的梯度計算。因此,為了學到足夠的語言模式,模型必須通過更多數據來補償這些空缺,這可能導致計算效率的下降。g6h28資訊網——每日最新資訊28at.com

參考鏈接g6h28資訊網——每日最新資訊28at.com

[1]https://arxiv.org/pdf/2406.10209g6h28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:henry,原標題《大模型“記性差一點”反而更聰明!金魚損失隨機剔除 token,讓 AI 不再死記硬背》g6h28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-27337-0.html大模型“記性差一點”反而更聰明:金魚損失隨機剔除 token,讓 AI 不再死記硬背

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI股票出售再擴容:員工可售103億美元股份,估值穩坐5000億

下一篇: 2.5 億元,優必選再次斬獲全球人形機器人最大合同

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
久久国产夜色精品鲁鲁99| 欧美一级黄色网| 亚洲综合精品四区| 亚洲国产精品视频一区| 国产婷婷97碰碰久久人人蜜臀| 欧美日韩日日骚| 欧美日韩大片一区二区三区| 久久人人看视频| 欧美与黑人午夜性猛交久久久| 亚洲欧美另类在线观看| 亚洲视频免费| 在线亚洲免费| 亚洲欧美国产另类| 久久天堂av综合合色| 欧美日韩精品久久| 国产一区二区三区久久久久久久久 | 亚洲乱码国产乱码精品精天堂 | 国产嫩草影院久久久久| 国产欧美日韩一区| 亚洲日本理论电影| 99亚洲一区二区| 一区二区三区日韩精品视频| 中文精品视频一区二区在线观看| 亚洲午夜激情免费视频| 亚洲欧美日本伦理| 欧美a级在线| 欧美人与性动交a欧美精品| 欧美日韩成人综合天天影院| 欧美日一区二区三区在线观看国产免| 欧美日韩国产成人高清视频| 国产亚洲一区二区三区| 在线观看亚洲一区| 亚洲级视频在线观看免费1级| 亚洲高清不卡在线| 日韩西西人体444www| 亚洲一区三区电影在线观看| 午夜精品久久久久久99热| 久久久999成人| 欧美电影免费网站| 欧美三级在线视频| 国产毛片精品视频| 亚洲第一精品夜夜躁人人爽| 亚洲精品一区二区在线观看| 亚洲无线视频| 欧美精品麻豆| 国产女精品视频网站免费| 99精品视频免费| 美女国产一区| 欧美性猛片xxxx免费看久爱 | 国产欧美日韩91| 亚洲高清毛片| 久久精品视频免费播放| 美女网站在线免费欧美精品| 欧美亚洲成人网| 国产欧美日韩在线播放| 中文欧美在线视频| 欧美另类变人与禽xxxxx| 免费在线成人av| 欧美理论视频| 亚洲国产成人av好男人在线观看| 一本久道久久久| 欧美1区视频| 在线精品视频一区二区| 久久久精品一区| 国产一区二区三区的电影| 99国产精品一区| 午夜精品久久久久久| 欧美精品不卡| 国产日韩欧美综合| 亚洲欧美日韩一区在线| 欧美成人国产va精品日本一级| 国产精品天美传媒入口| 影音先锋亚洲精品| 久久久福利视频| 黄色一区二区三区| 亚洲在线播放| 欧美国产亚洲视频| 国内精品免费在线观看| 一区二区三区成人| 欧美日韩亚洲一区二区| 亚洲国产精品第一区二区三区| 久久一本综合频道| 国产欧美日韩伦理| 欧美伊人久久大香线蕉综合69| 国产精品色婷婷| 99精品视频免费观看| 欧美日韩精品免费观看视频完整| 亚洲精品小视频在线观看| 久久精品青青大伊人av| 黄色成人av在线| 免费视频一区| 亚洲免费精品| 免费不卡在线视频| 亚洲成人直播| 久久免费视频这里只有精品| 国产精品日韩欧美大师| 一区二区欧美亚洲| 免费不卡欧美自拍视频| 亚洲国产片色| 欧美日韩视频在线| 亚洲欧美成人| 欧美午夜欧美| 一区二区精品在线观看| 国产精品电影网站| 亚洲美女免费视频| 欧美大片一区二区三区| 日韩视频免费观看高清在线视频| 欧美日韩人人澡狠狠躁视频| 亚洲国产一区二区三区高清| 久久久国产亚洲精品| 国产欧美一区视频| 久久躁狠狠躁夜夜爽| 国内精品久久久久久| 亚洲欧美日韩一区二区| 国内精品久久久久国产盗摄免费观看完整版 | 欧美福利视频| 亚洲网站在线看| 国产综合精品| 欧美日本韩国在线| 亚洲免费播放| 亚洲第一色在线| 欧美日韩国产在线| 性欧美精品高清| 国产亚洲欧洲| 欧美激情第3页| 亚洲国产视频a| 欧美成人免费观看| 亚洲欧洲日韩在线| 欧美大片一区二区| 午夜精品成人在线| 永久555www成人免费| 免费视频一区二区三区在线观看| 9i看片成人免费高清| 国产亚洲精品资源在线26u| 欧美韩日高清| 欧美一级黄色网| 国一区二区在线观看| 欧美日本在线视频| 久久精品国产999大香线蕉| 99国内精品久久| 狠色狠色综合久久| 欧美mv日韩mv亚洲| 亚洲欧美成人在线| 亚洲欧洲精品天堂一级| 欧美高清在线一区二区| 亚洲在线一区| 国产综合色产| 欧美日本免费| 久久久亚洲高清| 亚洲一区二区动漫| 亚洲国产小视频| 国产亚洲一区精品| 免费一级欧美片在线观看| 亚洲一区欧美激情| 亚洲日本久久| 国产精品视区| 久久精视频免费在线久久完整在线看| 国产欧美另类| 欧美日韩直播| 另类天堂av| 在线一区二区三区四区| …久久精品99久久香蕉国产 | 日韩一级在线观看| 在线精品视频一区二区| 欧美日韩91| 你懂的视频欧美| 亚洲一区二区欧美| 国产视频丨精品|在线观看| 欧美日韩专区| 欧美激情一区二区久久久| 亚洲成人资源| 国产一区二区久久| 欧美+日本+国产+在线a∨观看| 欧美在线播放一区| 亚洲人午夜精品免费| 国模精品娜娜一二三区| 国产精品欧美日韩| 麻豆成人综合网| 亚洲一区免费网站| 9久草视频在线视频精品| 亚洲国产欧美在线人成| 在线观看中文字幕不卡| 国产精品九九久久久久久久| 欧美精品色综合| 欧美中文字幕在线播放| 91久久综合| 亚洲电影一级黄| 伊大人香蕉综合8在线视| 欧美色网一区二区| 欧美日韩ab片| 欧美精品三级日韩久久| 欧美精品1区2区3区| 欧美永久精品| 性欧美xxxx大乳国产app| 亚洲综合好骚| 亚洲欧美日韩一区在线| 亚洲影视在线| 亚洲欧美成人在线| 性娇小13――14欧美| 性色一区二区| 久久狠狠亚洲综合| 久久久久国产一区二区| 久久综合给合久久狠狠色 | 一区二区三区波多野结衣在线观看|