日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 知識百科

谷歌:性能不佳的微調模型不要扔,求一下平均權重就能提升性能

來源: 責編: 時間:2023-08-07 16:30:02 282觀看
導讀 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。如何最大限度地提升模型精度?最近,谷歌等機構發現:性能不好的微調模型先不要扔,求一下平均權重!就能在不增加推理

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。obK28資訊網——每日最新資訊28at.com

如何最大限度地提升模型精度?obK28資訊網——每日最新資訊28at.com

最近,谷歌等機構發現:obK28資訊網——每日最新資訊28at.com

性能不好的微調模型先不要扔,求一下平均權重!obK28資訊網——每日最新資訊28at.com

就能在不增加推理時間以及內存開銷的情況下,提高模型的準確性和魯棒性。obK28資訊網——每日最新資訊28at.com

比如,研究人員就使用該方法創造了ImageNet1K的新紀錄:90.94%。obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

將它擴展到多個圖像分類以及自然語言處理任務中,也能提高模型的分布外性能,并改善新下游任務的零樣本性能。obK28資訊網——每日最新資訊28at.com

而這個方法還有一個有趣的名字,叫Module soup——obK28資訊網——每日最新資訊28at.com

是不是讓人一下子就讓人聯想到了斐波那契湯的笑話?(昨天的湯+前天的湯=今天的新湯)obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

△ 知乎網友@hzwer,已授權obK28資訊網——每日最新資訊28at.com

一共三種配方obK28資訊網——每日最新資訊28at.com

回想一下在此之前,大家是如何給模型漲點的呢?obK28資訊網——每日最新資訊28at.com

是不是先用各種超參數訓練出多個微調模型,然后再挑出驗證集上表現最好的那一個留下,其余丟掉?obK28資訊網——每日最新資訊28at.com

由于神經網絡是非線性的,在不同的loss basin中可能有許多解,因此Module soup這一采用保留所有微調模型的權重,對其進行平均的方法就可以提高性能,還是讓人有點驚訝的。obK28資訊網——每日最新資訊28at.com

不過,最近就已有研究發現,從相同的初始化配置中中獨立優化的微調模型,位于相同的誤差范圍內 (lie in the same basin of the error landscape)。obK28資訊網——每日最新資訊28at.com

之前也有研究證明,沿單個訓練軌跡進行權重平均,可以提高隨機初始化訓練模型的性能。obK28資訊網——每日最新資訊28at.com

作者正是從這些結論中受到啟發。obK28資訊網——每日最新資訊28at.com

Module soup一共有三種“配方”(實現):統一湯(uniform soup)、貪婪湯(greedy soup)和學習湯(learned soup)。obK28資訊網——每日最新資訊28at.com

其中greedy soup是最主要采用的實現,因為它的性能比直接均勻地平均所有權重更高。obK28資訊網——每日最新資訊28at.com

具體來說,Greedy soup通過順序添加每個模型作為“湯”中的潛在成分構建而成,并且只有在保持驗證集上的性能有所提高時才將相應模型保留在“湯”中。obK28資訊網——每日最新資訊28at.com

排序按驗證集精度的降序排列。obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

性能超越單個最佳微調模型obK28資訊網——每日最新資訊28at.com

作者進行了全面的微調實驗來確定Module soup的有效性。obK28資訊網——每日最新資訊28at.com

首先是微調CLIP和ALIGN,這兩個模型在圖像-文本對上進行了對比損失預訓練。obK28資訊網——每日最新資訊28at.com

結果經過module soup操作后,兩者在分布內和自然分布轉移(distribution shifts)測試集上的表現都比最佳的單個微調模型性能更佳。obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

△ 左為CLIP,右為ALIGNobK28資訊網——每日最新資訊28at.com

然后是在JFT數據集上預訓練的ViT-G模型。obK28資訊網——每日最新資訊28at.com

也就是它在ImageNet1K數據集實現了90.94%的精度,打破了此前CoAtNet保持的90.88%,同時在推理階段還減少了25%的FLOPs。obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

在圖像分類任務以外,作者在NLP領域也對module soup進行了驗證。obK28資訊網——每日最新資訊28at.com

下表是BERT和T5模型在GLUE benchmark的四個文本分類任務上的結果:obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

可以發現,雖然改進不如圖像分類中的效果明顯,但在多數任務下,greedy soup都可以相較最好的單個模型提高性能。obK28資訊網——每日最新資訊28at.com

當然,作者也指出,module soup在適用性等方面存在局限,比如現在測試的都是在大型異構數據集上預先訓練的模型,在這些模型之外,效果并不是非常明顯。obK28資訊網——每日最新資訊28at.com

最后,知乎網友@宮醬手藝人表示,其實這樣的模型參數平均是一個經典trick,transformer原始論文就用了。obK28資訊網——每日最新資訊28at.com

obK28資訊網——每日最新資訊28at.com

你發現了嗎?obK28資訊網——每日最新資訊28at.com

論文地址:obK28資訊網——每日最新資訊28at.com
https://arxiv.org/abs/2203.0548obK28資訊網——每日最新資訊28at.com

 obK28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2219-0.html谷歌:性能不佳的微調模型不要扔,求一下平均權重就能提升性能

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 云安全日報220317:紅帽OpenShift云應用平臺發現執行任意代碼漏洞,需要盡快升級

下一篇: 終于不瞎編了!AI學會“谷歌一下”,Q&A正確率達90%

標簽:
  • 熱門焦點
  • 十個可以手動編寫的 JavaScript 數組 API

    JavaScript 中有很多API,使用得當,會很方便,省力不少。 你知道它的原理嗎? 今天這篇文章,我們將對它們進行一次小總結。現在開始吧。1.forEach()forEach()用于遍歷數組接收一參
  • 如何使用JavaScript創建一只圖像放大鏡?

    譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站,可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域,以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
  • 重估百度丨“晚熟”的百度云,能等到春天嗎?

    ©自象限原創作者|程心排版|王喻可2016年7月13日,百度云計算戰略發布會在北京舉行,宣告著百度智能云的正式啟程。彼時的會場座無虛席,甚至排隊排到了門外,在場的所有人幾乎都
  • 10天營收超1億美元,《星鐵》比《原神》差在哪?

    來源:伯虎財經作者:陳平安即便你沒玩過《原神》,你一定聽說過的它的大名。恨它的人把《原神》開服那天稱作是中國游戲史上最黑暗的一天,有粉絲因為索尼在PS平臺上線《原神》,怒而
  • 新電商三兄弟,“抖快紅”成團!

    來源:價值研究所作 者:Hernanderz 隨著內容電商的概念興起,抖音、快手、小紅書組成的“新電商三兄弟”成為業內一股不可忽視的勢力,給阿里、京東、拼多多帶去了巨大壓
  • 阿里大調整

    來源:產品劉有媒體報道稱,近期淘寶天貓集團啟動了近年來最大的人力制度改革,涉及員工績效、層級體系等多個核心事項,目前已形成一個初步的“征求意見版”:1、取消P序列
  • 三星折疊屏手機去年銷售近1000萬臺 今年目標定為1500萬

    7月29日消息,三星率先發力可折疊手機市場,在全球市場已經取得了非常亮眼的成績,接下來會進一步鞏固和擴大這一優勢。三星在推出Galaxy Z Flip5和Galax
  • 蘋果140W USB-C充電器:采用氮化鎵技術

    據10 月 30 日 9to5 Mac 消息報道,當蘋果推出新的 MacBook Pro 2021 時,該公司還推出了新的 140W USB-C 充電器,附贈在 MacBook Pro 16 英寸機型的盒子里,也支
  • 世界人工智能大會國際日開幕式活動在世博展覽館開啟

    30日上午,世界人工智能大會國際日開幕式活動在世博展覽館開啟,聚集國際城市代表、重量級院士專家、國際創新企業代表,共同打造人工智能交流平臺。上海市副市
Top 主站蜘蛛池模板: 盐边县| 周至县| 新闻| 武清区| 张掖市| 贵溪市| 贞丰县| 会理县| 建湖县| 观塘区| 濉溪县| 伊宁县| 乌兰察布市| 韶关市| 明星| 文安县| 明溪县| 鄄城县| 湛江市| 河源市| 叙永县| 鹤峰县| 华蓥市| 吉首市| 什邡市| 上栗县| 宜兴市| 宁城县| 从江县| 鄂州市| 依安县| 吉隆县| 株洲市| 西吉县| 荆州市| 永清县| 建德市| 灵山县| 天柱县| 阳原县| 株洲市|