日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁(yè) > 科技  > 知識(shí)百科

讓圖網(wǎng)絡(luò)更穩(wěn)健!谷歌提出SR-GNN,無(wú)懼?jǐn)?shù)據(jù)標(biāo)記偏差和領(lǐng)域轉(zhuǎn)移

來(lái)源: 責(zé)編: 時(shí)間:2023-08-07 16:30:03 249觀看
導(dǎo)讀 圖神經(jīng)網(wǎng)絡(luò)(GNN),是在機(jī)器學(xué)習(xí)中利用圖形結(jié)構(gòu)數(shù)據(jù)的強(qiáng)大工具。圖是一種靈活的數(shù)據(jù)結(jié)構(gòu),可以對(duì)許多不同類型的關(guān)系進(jìn)行建模,并已被用于不同的應(yīng)用,如交通預(yù)測(cè)、謠言和假新聞檢測(cè)、

圖神經(jīng)網(wǎng)絡(luò)(GNN),是在機(jī)器學(xué)習(xí)中利用圖形結(jié)構(gòu)數(shù)據(jù)的強(qiáng)大工具。圖是一種靈活的數(shù)據(jù)結(jié)構(gòu),可以對(duì)許多不同類型的關(guān)系進(jìn)行建模,并已被用于不同的應(yīng)用,如交通預(yù)測(cè)、謠言和假新聞檢測(cè)、疾病傳播建模等。cgF28資訊網(wǎng)——每日最新資訊28at.com

cgF28資訊網(wǎng)——每日最新資訊28at.com

作為機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)之一,GNN假設(shè)訓(xùn)練樣本是均勻隨機(jī)選擇的(即獨(dú)立和相同分布樣本)。這個(gè)假設(shè)對(duì)于標(biāo)準(zhǔn)的學(xué)術(shù)數(shù)據(jù)集來(lái)說(shuō)是很容易符合的,這些數(shù)據(jù)集專門為研究分析而創(chuàng)建,每個(gè)數(shù)據(jù)節(jié)點(diǎn)都已經(jīng)被標(biāo)記。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

但是在許多現(xiàn)實(shí)世界的場(chǎng)景中,數(shù)據(jù)是沒(méi)有標(biāo)簽的,實(shí)際上,對(duì)數(shù)據(jù)的標(biāo)記往往是一個(gè)繁重的過(guò)程,需要熟練的真人審核和把關(guān),所以,要標(biāo)記所有數(shù)據(jù)節(jié)點(diǎn)是一個(gè)非常困難的任務(wù)。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

此外,訓(xùn)練數(shù)據(jù)的偏見(jiàn)也是一個(gè)常見(jiàn)問(wèn)題,因?yàn)檫x擇節(jié)點(diǎn)進(jìn)行數(shù)據(jù)標(biāo)記的行為通常不是上文所說(shuō)的「均勻隨機(jī)選擇」。cgF28資訊網(wǎng)——每日最新資訊28at.com

cgF28資訊網(wǎng)——每日最新資訊28at.com

比如,有時(shí)會(huì)使用固定的啟發(fā)式方法來(lái)選擇一個(gè)數(shù)據(jù)子集(子集中的數(shù)據(jù)具備一些共同的特征)進(jìn)行標(biāo)注,還有的時(shí)候,人類分析員會(huì)利用復(fù)雜的領(lǐng)域知識(shí),單獨(dú)選擇某些特定數(shù)據(jù)項(xiàng)進(jìn)行標(biāo)注。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

為了量化訓(xùn)練集中存在的偏差量,我們可以使用一些方法來(lái)衡量?jī)蓚€(gè)不同的概率分布之間的轉(zhuǎn)變有多大,轉(zhuǎn)變的大小可以被認(rèn)為是偏差量。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

這種偏差量越大,機(jī)器學(xué)習(xí)模型從存在偏見(jiàn)的訓(xùn)練集中歸納出特征的難度就越大。可能會(huì)有顯著損害模型泛化能力。在學(xué)術(shù)數(shù)據(jù)集中,一些領(lǐng)域轉(zhuǎn)移會(huì)導(dǎo)致模型性能下降15-20%(以F1分?jǐn)?shù)為量度)。cgF28資訊網(wǎng)——每日最新資訊28at.com

cgF28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdfcgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

為了解決這個(gè)問(wèn)題,谷歌在NeurIPS 2021上介紹了一種在有偏見(jiàn)的數(shù)據(jù)上使用GNN的解決方案。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

這種方法被稱為Shift-Robust GNN(SR-GNN),從名字上不難看出,這個(gè)方法的目的就是要讓問(wèn)題域發(fā)生變化和遷移時(shí),模型依然保持高穩(wěn)健性,降低性能下降。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

研究人員在半監(jiān)督學(xué)習(xí)的常見(jiàn)GNN基準(zhǔn)數(shù)據(jù)集上,用有偏見(jiàn)的訓(xùn)練數(shù)據(jù)集進(jìn)行的各種實(shí)驗(yàn)中,驗(yàn)證了SR-GNN的有效性,實(shí)驗(yàn)表明,SR-GNN在準(zhǔn)確性上優(yōu)于其他GNN基準(zhǔn),將有偏見(jiàn)的訓(xùn)練數(shù)據(jù)的負(fù)面影響減少了30-40%。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)分布偏移對(duì)GNN性能的影響cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

為了證明數(shù)據(jù)分布的偏移如何影響GNN的性能,首先為已知的學(xué)術(shù)數(shù)據(jù)集生成一些有偏見(jiàn)的訓(xùn)練集。然后,為了理解這種影響,將泛化(測(cè)試準(zhǔn)確率)與分布偏移的衡量標(biāo)準(zhǔn)(CMD)進(jìn)行對(duì)比。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

例如,以著名的PubMed引文數(shù)據(jù)集為例,它可以被認(rèn)為是一個(gè)圖,圖的節(jié)點(diǎn)就是醫(yī)學(xué)研究論文,圖的「邊」就是這些論文之間的引用。如果為PubMed生成有偏見(jiàn)的訓(xùn)練數(shù)據(jù),這個(gè)圖看起來(lái)像下面這樣。cgF28資訊網(wǎng)——每日最新資訊28at.com

cgF28資訊網(wǎng)——每日最新資訊28at.com

可以看到,數(shù)據(jù)集的分布偏移與分類準(zhǔn)確率之間存在著強(qiáng)烈的負(fù)相關(guān):隨著CMD的增加,性能(F1)顯著下降。也就是說(shuō),GNN可能難以泛化,因?yàn)橛?xùn)練數(shù)據(jù)看起來(lái)不太像測(cè)試數(shù)據(jù)集。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

為了解決這個(gè)問(wèn)題,研究人員提出了一個(gè)對(duì)泛化高穩(wěn)健性的正則化器,讓訓(xùn)練數(shù)據(jù)和來(lái)自未標(biāo)記數(shù)據(jù)的隨機(jī)均勻樣本之間的分布偏移實(shí)現(xiàn)最小化。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

為了實(shí)現(xiàn)這一點(diǎn),研究人員在模型訓(xùn)練時(shí)對(duì)域偏移進(jìn)行實(shí)時(shí)測(cè)量,并在此基礎(chǔ)上使用直接懲罰策略,迫使模型盡可能多地忽略訓(xùn)練偏差,讓模型為訓(xùn)練數(shù)據(jù)學(xué)習(xí)的特征編碼器對(duì)任何可能來(lái)自不同分布的未標(biāo)記數(shù)據(jù)也能有效工作。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

下圖所示為SR-GNN與傳統(tǒng)GNN模型的對(duì)比。二者輸入相同,層數(shù)相同。將GNN的第(k)層的最終嵌入Zk與來(lái)自未標(biāo)記的數(shù)據(jù)點(diǎn)的嵌入進(jìn)行比較,驗(yàn)證該模型是否正確編碼。cgF28資訊網(wǎng)——每日最新資訊28at.com

cgF28資訊網(wǎng)——每日最新資訊28at.com

把這個(gè)正則化寫(xiě)成模型損失公式中的一個(gè)附加項(xiàng),該公式基于訓(xùn)練數(shù)據(jù)的表征和真實(shí)數(shù)據(jù)的分布之間的距離制定。cgF28資訊網(wǎng)——每日最新資訊28at.com

cgF28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)證明,加入SR-GNN正則化后,在有偏見(jiàn)的訓(xùn)練數(shù)據(jù)標(biāo)簽的分類任務(wù)上,分類模型的性能實(shí)現(xiàn)了30-40%的提升。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

另外,本文還研究了如何在有偏見(jiàn)的訓(xùn)練數(shù)據(jù)存在的情況下,讓模型更加可靠。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

盡管由于結(jié)構(gòu)差異,相同的正則化機(jī)制不能直接應(yīng)用在不同模型上,但可以通過(guò)根據(jù)訓(xùn)練實(shí)例與近似的真實(shí)分布的距離重新加權(quán)來(lái)「糾正」訓(xùn)練偏見(jiàn)。這能夠糾正有偏見(jiàn)的訓(xùn)練數(shù)據(jù)的分布,無(wú)需通過(guò)模型來(lái)傳遞梯度。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

這兩種正則化可以結(jié)合,形成一個(gè)廣義的損失正則化,結(jié)合了領(lǐng)域正則化和實(shí)例重權(quán)(細(xì)節(jié),包括損失公式,可在論文中找到)。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

結(jié)論cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

有偏見(jiàn)的訓(xùn)練數(shù)據(jù)在現(xiàn)實(shí)世界的場(chǎng)景中很常見(jiàn),這些偏見(jiàn)可能是由于各種原因造成的,包括對(duì)大量數(shù)據(jù)進(jìn)行標(biāo)注的困難、用于選擇標(biāo)注節(jié)點(diǎn)的各種啟發(fā)式方法或不一致的技術(shù)、數(shù)據(jù)標(biāo)記分布延時(shí)等等。cgF28資訊網(wǎng)——每日最新資訊28at.com

 cgF28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)通用框架(SR-GNN)可以減少有偏見(jiàn)的訓(xùn)練數(shù)據(jù)的影響,而且可以應(yīng)用于各種類型的GNN,包括更深層的GNN,以及這些模型的線性化淺層GNN上。cgF28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2223-0.html讓圖網(wǎng)絡(luò)更穩(wěn)健!谷歌提出SR-GNN,無(wú)懼?jǐn)?shù)據(jù)標(biāo)記偏差和領(lǐng)域轉(zhuǎn)移

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 2021年度國(guó)家綠色數(shù)據(jù)中心名單公布 萬(wàn)國(guó)數(shù)據(jù)四座數(shù)據(jù)中心上榜

下一篇: 這個(gè)CV數(shù)據(jù)集生成器火了,支持13類CV任務(wù),DeepMind等打造

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 封丘县| 隆化县| 阜南县| 长寿区| 昌邑市| 钦州市| 佛教| 大同县| 新绛县| 宜君县| 资源县| 绩溪县| 曲水县| 嵊泗县| 浏阳市| 视频| 佳木斯市| 桐梓县| 通渭县| 磴口县| 鹤壁市| 织金县| 德昌县| 嘉祥县| 古田县| 阳西县| 安岳县| 桂平市| 三门县| 和硕县| 柞水县| 沙坪坝区| 赣州市| 元朗区| 松潘县| 乌拉特后旗| 明光市| 黔南| 北流市| 叶城县| 铁岭县|