當前位置：首頁 > 科技 > 知識百科

谷歌：性能不佳的微調模型不要扔，求一下平均權重就能提升性能

來源：責編：時間：2023-08-07 16:30:02 282觀看

導讀本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。如何最大限度地提升模型精度？最近，谷歌等機構發現：性能不好的微調模型先不要扔，求一下平均權重！就能在不增加推理

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

如何最大限度地提升模型精度？

最近，谷歌等機構發現：

性能不好的微調模型先不要扔，求一下平均權重！

就能在不增加推理時間以及內存開銷的情況下，提高模型的準確性和魯棒性。

比如，研究人員就使用該方法創造了ImageNet1K的新紀錄：90.94%。

將它擴展到多個圖像分類以及自然語言處理任務中，也能提高模型的分布外性能，并改善新下游任務的零樣本性能。

而這個方法還有一個有趣的名字，叫Module soup——

是不是讓人一下子就讓人聯想到了斐波那契湯的笑話？（昨天的湯+前天的湯=今天的新湯）

△ 知乎網友@hzwer，已授權

一共三種配方

回想一下在此之前，大家是如何給模型漲點的呢？

是不是先用各種超參數訓練出多個微調模型，然后再挑出驗證集上表現最好的那一個留下，其余丟掉？

由于神經網絡是非線性的，在不同的loss basin中可能有許多解，因此Module soup這一采用保留所有微調模型的權重，對其進行平均的方法就可以提高性能，還是讓人有點驚訝的。

不過，最近就已有研究發現，從相同的初始化配置中中獨立優化的微調模型，位于相同的誤差范圍內（lie in the same basin of the error landscape）。

之前也有研究證明，沿單個訓練軌跡進行權重平均，可以提高隨機初始化訓練模型的性能。

作者正是從這些結論中受到啟發。

Module soup一共有三種“配方”（實現）：統一湯（uniform soup）、貪婪湯（greedy soup）和學習湯（learned soup）。

其中greedy soup是最主要采用的實現，因為它的性能比直接均勻地平均所有權重更高。

具體來說，Greedy soup通過順序添加每個模型作為“湯”中的潛在成分構建而成，并且只有在保持驗證集上的性能有所提高時才將相應模型保留在“湯”中。

排序按驗證集精度的降序排列。

性能超越單個最佳微調模型

作者進行了全面的微調實驗來確定Module soup的有效性。

首先是微調CLIP和ALIGN，這兩個模型在圖像-文本對上進行了對比損失預訓練。

結果經過module soup操作后，兩者在分布內和自然分布轉移（distribution shifts）測試集上的表現都比最佳的單個微調模型性能更佳。

△ 左為CLIP，右為ALIGN

然后是在JFT數據集上預訓練的ViT-G模型。

也就是它在ImageNet1K數據集實現了90.94%的精度，打破了此前CoAtNet保持的90.88%，同時在推理階段還減少了25%的FLOPs。

在圖像分類任務以外，作者在NLP領域也對module soup進行了驗證。

下表是BERT和T5模型在GLUE benchmark的四個文本分類任務上的結果：

可以發現，雖然改進不如圖像分類中的效果明顯，但在多數任務下，greedy soup都可以相較最好的單個模型提高性能。

當然，作者也指出，module soup在適用性等方面存在局限，比如現在測試的都是在大型異構數據集上預先訓練的模型，在這些模型之外，效果并不是非常明顯。

最后，知乎網友@宮醬手藝人表示，其實這樣的模型參數平均是一個經典trick，transformer原始論文就用了。

你發現了嗎？

論文地址：
https://arxiv.org/abs/2203.0548

本文鏈接：http://www.www897cc.com/showinfo-119-2219-0.html谷歌：性能不佳的微調模型不要扔，求一下平均權重就能提升性能

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：云安全日報220317：紅帽OpenShift云應用平臺發現執行任意代碼漏洞，需要盡快升級

下一篇：終于不瞎編了！AI學會“谷歌一下”，Q&amp;A正確率達90%

標簽：

熱門焦點

十個可以手動編寫的 JavaScript 數組 API

JavaScript 中有很多API，使用得當，會很方便，省力不少。你知道它的原理嗎? 今天這篇文章，我們將對它們進行一次小總結。現在開始吧。1.forEach()forEach()用于遍歷數組接收一參
如何使用JavaScript創建一只圖像放大鏡？

譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站，可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域，以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
10天營收超1億美元，《星鐵》比《原神》差在哪？

來源：伯虎財經作者：陳平安即便你沒玩過《原神》，你一定聽說過的它的大名。恨它的人把《原神》開服那天稱作是中國游戲史上最黑暗的一天，有粉絲因為索尼在PS平臺上線《原神》，怒而
新電商三兄弟，“抖快紅”成團！

來源：價值研究所作者：Hernanderz 隨著內容電商的概念興起，抖音、快手、小紅書組成的“新電商三兄弟”成為業內一股不可忽視的勢力，給阿里、京東、拼多多帶去了巨大壓
阿里大調整

來源：產品劉有媒體報道稱，近期淘寶天貓集團啟動了近年來最大的人力制度改革，涉及員工績效、層級體系等多個核心事項，目前已形成一個初步的“征求意見版”：1、取消P序列
三星折疊屏手機去年銷售近1000萬臺今年目標定為1500萬

7月29日消息，三星率先發力可折疊手機市場，在全球市場已經取得了非常亮眼的成績，接下來會進一步鞏固和擴大這一優勢。三星在推出Galaxy Z Flip5和Galax
蘋果140W USB-C充電器：采用氮化鎵技術

據10 月 30 日 9to5 Mac 消息報道，當蘋果推出新的 MacBook Pro 2021 時，該公司還推出了新的 140W USB-C 充電器，附贈在 MacBook Pro 16 英寸機型的盒子里，也支
世界人工智能大會國際日開幕式活動在世博展覽館開啟

30日上午，世界人工智能大會國際日開幕式活動在世博展覽館開啟，聚集國際城市代表、重量級院士專家、國際創新企業代表，共同打造人工智能交流平臺。上海市副市

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

谷歌：性能不佳的微調模型不要扔，求一下平均權重就能提升性能

十個可以手動編寫的 JavaScript 數組 API

如何使用JavaScript創建一只圖像放大鏡？

重估百度丨“晚熟”的百度云，能等到春天嗎？

10天營收超1億美元，《星鐵》比《原神》差在哪？

新電商三兄弟，“抖快紅”成團！

阿里大調整

三星折疊屏手機去年銷售近1000萬臺今年目標定為1500萬

蘋果140W USB-C充電器：采用氮化鎵技術

世界人工智能大會國際日開幕式活動在世博展覽館開啟

最新推薦

猜你喜歡

熱門推薦

相關資訊