日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 知識百科

?什么是Transformer機器學(xué)習(xí)模型? 譯文

來源: 責(zé)編: 時間:2023-08-07 16:30:24 252觀看
導(dǎo)讀 近年來, Transformer 機器學(xué)習(xí)模型已經(jīng)成為深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)進步的主要亮點之一。它主要用于自然語言處理中的高級應(yīng)用。谷歌正在使用它來增強其搜索引擎結(jié)果。Op

 Wz428資訊網(wǎng)——每日最新資訊28at.com

近年來, Transformer 機器學(xué)習(xí)模型已經(jīng)成為深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)進步的主要亮點之一。它主要用于自然語言處理中的高級應(yīng)用。谷歌正在使用它來增強其搜索引擎結(jié)果。OpenAI 使用 Transformer 創(chuàng)建了著名的 GPT-2和 GPT-3模型。Wz428資訊網(wǎng)——每日最新資訊28at.com

圖片Wz428資訊網(wǎng)——每日最新資訊28at.com

自從2017年首次亮相以來,Transformer 架構(gòu)不斷發(fā)展并擴展到多種不同的變體,從語言任務(wù)擴展到其他領(lǐng)域。它們已被用于時間序列預(yù)測。它們是 DeepMind 的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型 AlphaFold 背后的關(guān)鍵創(chuàng)新。OpenAI 的源代碼生成模型 Codex 也基于 Transformer。Transformer 最近也進入了計算機視覺領(lǐng)域,在許多復(fù)雜任務(wù)中它們正在慢慢取代卷積神經(jīng)網(wǎng)絡(luò)(CNN)。Wz428資訊網(wǎng)——每日最新資訊28at.com

研究人員仍在探索改進 Transformer 并將其用于新應(yīng)用的方法。以下是關(guān)于 Transformer 令人興奮的原因以及它們?nèi)绾喂ぷ鞯暮喴忉尅?span style="display:none">Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

1.采用神經(jīng)網(wǎng)絡(luò)處理序列數(shù)據(jù)Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

圖片Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)并非旨在跟蹤序列數(shù)據(jù)并將每個輸入映射到輸出。它適用于諸如圖像分類之類的任務(wù),但在諸如文本之類的序列數(shù)據(jù)上卻失敗了。處理文本的機器學(xué)習(xí)模型不僅必須處理每個單詞,還必須考慮單詞如何按順序排列并相互關(guān)聯(lián)。而一個單詞的含義可能會隨著句子中出現(xiàn)在它們之前和之后的其他單詞而改變。Wz428資訊網(wǎng)——每日最新資訊28at.com

在 Transformer 出現(xiàn)之前,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是自然語言處理的首選解決方案。當(dāng)提供一個單詞序列時,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將處理第一個單詞,并將結(jié)果反饋到處理下一個單詞的層。這使它能夠跟蹤整個句子,而不是單獨處理每個單詞。Wz428資訊網(wǎng)——每日最新資訊28at.com

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的缺點限制了它們的用處。首先,它們的處理速度非常緩慢。由于它們必須按順序處理數(shù)據(jù),因此無法在訓(xùn)練和推理中利用并行計算硬件和圖形處理單元(GPU)。其次,它們無法處理長序列的文本。隨著遞歸神經(jīng)網(wǎng)絡(luò)(RNN)深入到文本摘錄中,句子開頭幾個單詞起到的效果逐漸減弱。當(dāng)兩個鏈接的詞在文本中相距很遠時,這個被稱為“梯度消失”的問題就會出現(xiàn)。第三,它們只捕捉到一個單詞和它之前的單詞之間的關(guān)系。實際上,單詞的含義取決于它們之前和之后的單詞。Wz428資訊網(wǎng)——每日最新資訊28at.com

長短時記憶(LSTM)網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的繼任者,能夠在一定程度上解決梯度消失問題,并且能夠處理更大的文本序列。但是長短時記憶(LSTM)的訓(xùn)練速度甚至比遞歸神經(jīng)網(wǎng)絡(luò)(RNN)還要慢,并且仍然無法充分利用并行計算。他們?nèi)匀灰蕾囉谖谋拘蛄械拇刑幚怼?span style="display:none">Wz428資訊網(wǎng)——每日最新資訊28at.com

2017年發(fā)表的一篇名為《注意就是所需要的一切》的論文介紹了 Transformer,指出 Transformer Wz428資訊網(wǎng)——每日最新資訊28at.com
做出了兩個關(guān)鍵貢獻:首先,它們使并行處理整個序列成為可能,從而可以將順序深度學(xué)習(xí)模型的速度和容量擴展到前所未有的速度。其次,它們引入了“注意機制”,可以在正向和反向的非常長的文本序列中跟蹤單詞之間的關(guān)系。Wz428資訊網(wǎng)——每日最新資訊28at.com

圖片Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

在討論 Transformer 模型的工作原理之前,有必要討論一下序列神經(jīng)網(wǎng)絡(luò)解決的問題類型。Wz428資訊網(wǎng)——每日最新資訊28at.com

“向量到序列”模型采用單個輸入(例如圖像)并生成數(shù)據(jù)序列(例如描述)。“序列到向量”模型將序列數(shù)據(jù)作為輸入,例如產(chǎn)品評論或社交媒體帖子,并輸出單個值,例如情緒分數(shù)。“序列到序列”模型將一個序列作為輸入,例如一個英文句子,并輸出另一個序列,例如該句子的法語翻譯。Wz428資訊網(wǎng)——每日最新資訊28at.com

盡管存在差異,但所有這些類型的模型都有一個共同點——他們學(xué)習(xí)表達。神經(jīng)網(wǎng)絡(luò)的工作是將一種類型的數(shù)據(jù)轉(zhuǎn)換為另一種類型的數(shù)據(jù)。在訓(xùn)練期間,神經(jīng)網(wǎng)絡(luò)的隱藏層(位于輸入和輸出之間的層)以最能代表輸入數(shù)據(jù)類型特征的方式調(diào)整其參數(shù),并將其映射到輸出。最初的 Transformer 被設(shè)計為用于機器翻譯的序列到序列(seq2seq)模型(當(dāng)然,序列到序列模型不限于翻譯任務(wù))。它由一個編碼器模塊組成,該模塊將來自源語言的輸入字符串壓縮為一個向量,該向量表示單詞及其相互之間的關(guān)系。解碼器模塊將編碼向量轉(zhuǎn)換為目標語言的文本字符串。Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

2.標記和嵌入 Wz428資訊網(wǎng)——每日最新資訊28at.com

圖片Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

輸入文本必須經(jīng)過處理并轉(zhuǎn)換為統(tǒng)一格式,然后才能輸入到 Transformer。首先,文本通過“標記器”,將其分解為可以單獨處理的字符塊。標記化算法可以取決于應(yīng)用程序。在大多數(shù)情況下,每個單詞和標點符號大致算作一個標記。一些后綴和前綴算作單獨的標記(例如,“ize”、“ly”和“pre”)。標記器生成一個數(shù)字列表,表示輸入文本的標記ID。Wz428資訊網(wǎng)——每日最新資訊28at.com

然后將標記轉(zhuǎn)換為“單詞嵌入”。單詞嵌入是一種試圖在多維空間中捕捉單詞價值的向量。例如,“貓”和“狗”這兩個詞在某些維度上可能具有相似的值,因為它們都用于關(guān)于動物和寵物的句子中。然而,在區(qū)分貓科動物和犬科動物的其他維度上,“貓”比“狼”更接近“獅子”。同樣,“巴黎”和“倫敦”可能彼此更加接近,因為它們都是城市。然而,“倫敦”更接近于“英格蘭”,“巴黎”更接近于“法國”,這是因為在一個國家的區(qū)分維度上。而單詞嵌入通常有數(shù)百個維度。Wz428資訊網(wǎng)——每日最新資訊28at.com

單詞嵌入是通過嵌入模型創(chuàng)建的,這些模型與 Transformer 分開訓(xùn)練。有幾種用于語言任務(wù)的預(yù)訓(xùn)練嵌入模型。Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

3.注意層   Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

圖片Wz428資訊網(wǎng)——每日最新資訊28at.com

一旦句子被轉(zhuǎn)換成一個單詞嵌入列表,它就會被輸入到 Transformer 的編碼器模塊中。與遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長短時記憶(LSTM)模型不同,Transformer 一次不會接收一個輸入。它可以接收整個句子的嵌入值,并并行處理它們。這使得 Transformer 比它們的前輩更具有計算效率,并且還使它們能夠在正向和反向序列中檢查文本的場景。Wz428資訊網(wǎng)——每日最新資訊28at.com

為了保持句子中單詞的順序,Transformer 應(yīng)用“位置編碼”,這基本上意味著它修改每個嵌入向量的值,以表示其在文本中的位置。Wz428資訊網(wǎng)——每日最新資訊28at.com

接下來,輸入被傳遞到第一個編碼器塊,它通過“注意層”對其進行處理。注意層試圖捕捉句子中單詞之間的關(guān)系。例如,考慮 “一只大黑貓碰掉一個瓶子之后橫穿馬路”(The big black cat crossed the road after it dropped a bottle on its side)這個句子。在這里,模型必須將“it”與“cat”相關(guān)聯(lián),將“its”與“bottle”相關(guān)聯(lián)。因此,它應(yīng)該建立其他關(guān)聯(lián),例如“big”和“cat”或“crossed”和“cat”。否則,注意層接收表示單個單詞值的單詞嵌入列表,并生成表示單個單詞及其相互關(guān)系的向量列表。注意層包含多個“attention heads” (注意頭),每個“attention heads”都可以捕獲單詞之間的不同類型的關(guān)系。Wz428資訊網(wǎng)——每日最新資訊28at.com

注意層的輸出被饋送到前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將其轉(zhuǎn)換為向量表示,并將其發(fā)送到下一個注意層。Transformers Wz428資訊網(wǎng)——每日最新資訊28at.com
包含幾個注意塊和前饋層,以逐漸捕捉更復(fù)雜的關(guān)系。Wz428資訊網(wǎng)——每日最新資訊28at.com

解碼器模塊的任務(wù)是將編碼器的注意向量轉(zhuǎn)換為輸出數(shù)據(jù)(例如,輸入文本的翻譯版本)。在訓(xùn)練階段,解碼器可以訪問編碼器產(chǎn)生的注意向量和預(yù)期的結(jié)果(例如,翻譯的字符串)。Wz428資訊網(wǎng)——每日最新資訊28at.com

解碼器使用相同的標記化、單詞嵌入和注意機制來處理預(yù)期結(jié)果并創(chuàng)建注意向量。然后,它在編碼器模塊中傳遞該注意向量和注意層,從而在輸入和輸出值之間建立關(guān)系。在翻譯應(yīng)用程序中,這是源語言和目標語言中的單詞相互映射的部分。與編碼器模塊一樣,解碼器注意向量通過前饋層傳遞。然后其結(jié)果被映射到一個非常大的向量池,即目標數(shù)據(jù)的大小(在翻譯的情況下,這可以涉及數(shù)萬個單詞)。Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

4.訓(xùn)練TransformerWz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

在訓(xùn)練期間,Transformer 提供了非常大的配對示例語料庫(例如,英語句子及其相應(yīng)的法語翻譯)。編碼器模塊接收并處理完整的輸入字符串。然而,解碼器接收到輸出字符串的掩碼版本(一次一個單詞),并嘗試建立編碼的注意向量和預(yù)期結(jié)果之間的映射。編碼器嘗試預(yù)測下一個單詞,并根據(jù)其輸出與預(yù)期結(jié)果之間的差異進行更正。這種反饋使轉(zhuǎn)換器能夠修改編碼器和解碼器的參數(shù),并逐漸在輸入和輸出語言之間創(chuàng)建正確的映射。Wz428資訊網(wǎng)——每日最新資訊28at.com

Transformer 擁有的訓(xùn)練數(shù)據(jù)和參數(shù)越多,它就越有能力在較長文本序列中保持連貫性和一致性。Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

5.Transformer的變化Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

 在以上研究的機器翻譯示例中,Transformer 的編碼器模塊學(xué)習(xí)英語單詞和句子之間的關(guān)系,而解碼器學(xué)習(xí)英語和法語之間的映射。Wz428資訊網(wǎng)——每日最新資訊28at.com

但并非所有 Transformer 應(yīng)用都需要編碼器和解碼器模塊。例如,大型語言模型的GPT系列使用解碼器模塊堆棧來生成文本。BERT是谷歌研究人員開發(fā)的 Transformer 模型的另一種變體,而它只使用編碼器模塊。Wz428資訊網(wǎng)——每日最新資訊28at.com

其中一些架構(gòu)的優(yōu)點是它們可以通過自我監(jiān)督學(xué)習(xí)或無監(jiān)督方法進行訓(xùn)練。例如,BERT 通過獲取大量未標記文本的語料庫,可以屏蔽其中的一部分,并嘗試預(yù)測缺失的部分來進行大部分訓(xùn)練。然后,它根據(jù)其預(yù)測接近或遠離實際數(shù)據(jù)的程度調(diào)整其參數(shù)。通過不斷地重復(fù)這個過程,BERT 捕捉到了不同場景中不同單詞之間的關(guān)系。在這個預(yù)訓(xùn)練階段之后,BERT 可以通過在少量標記示例上進行訓(xùn)練來針對下游任務(wù)進行微調(diào),例如問答、文本摘要或情感分析。使用無監(jiān)督和自我監(jiān)督的預(yù)訓(xùn)練可以減少注釋訓(xùn)練數(shù)據(jù)所需的工作量。Wz428資訊網(wǎng)——每日最新資訊28at.com

關(guān)于 Transformer 和他們正在解鎖的新應(yīng)用程序還有更多,這超出了本文的范圍。研究人員如今仍在尋找從Transformer中獲得更多幫助的方法。Wz428資訊網(wǎng)——每日最新資訊28at.com

Transformer 還引發(fā)了關(guān)于語言理解和通用人工智能的討論。顯而易見的是,Transformer 與其他神經(jīng)網(wǎng)絡(luò)一樣是一種統(tǒng)計模型,能夠以巧妙而復(fù)雜的方式捕捉數(shù)據(jù)中的規(guī)律性。雖然它們不像人類那樣“理解”語言,但是其發(fā)展仍然令人興奮并且可以提供更多新事物。Wz428資訊網(wǎng)——每日最新資訊28at.com

原文鏈接:https://bdtechtalks.com/2022/05/02/what-is-the-transformer/Wz428資訊網(wǎng)——每日最新資訊28at.com

 Wz428資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2382-0.html?什么是Transformer機器學(xué)習(xí)模型? 譯文

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 云安全日報220616:思科電子郵件安全設(shè)備發(fā)現(xiàn)身份驗證繞過漏洞,需要盡快升級

下一篇: 基于深度學(xué)習(xí)的文本情感識別技術(shù)在5G不良消息安全管控平臺中的應(yīng)用

標簽:
  • 熱門焦點
  • 一加Ace2 Pro真機揭曉 鈦空灰配色質(zhì)感拉滿

    終于,在經(jīng)過了幾波預(yù)熱之后,一加Ace2 Pro的外觀真機圖在網(wǎng)上出現(xiàn)了。還是博主數(shù)碼閑聊站曝光的,這次的外觀設(shè)計還是延續(xù)了一加11的方案,只是細節(jié)上有了調(diào)整,例如新加入了鈦空灰
  • 5月iOS設(shè)備好評榜:iPhone 14僅排第43?

    來到新的一月,安兔兔的各個榜單又重新匯總了數(shù)據(jù),像安卓陣營的榜單都有著比較大的變動,不過iOS由于設(shè)備的更新?lián)Q代并沒有那么快,所以相對來說變化并不大,特別是iOS好評榜,老款設(shè)
  • 微軟邀請 Microsoft 365 商業(yè)用戶,測試視頻編輯器 Clipchamp

    8 月 1 日消息,微軟近日宣布即將面向 Microsoft 365 商業(yè)用戶,開放 Clipchamp 應(yīng)用,邀請用戶通過該應(yīng)用來編輯視頻。微軟于 2021 年收購 Clipchamp,隨后開始逐步整合到 Microsof
  • 重估百度丨“晚熟”的百度云,能等到春天嗎?

    ©自象限原創(chuàng)作者|程心排版|王喻可2016年7月13日,百度云計算戰(zhàn)略發(fā)布會在北京舉行,宣告著百度智能云的正式啟程。彼時的會場座無虛席,甚至排隊排到了門外,在場的所有人幾乎都
  • 梁柱接棒兩年,騰訊音樂闖出新路子

    文丨田靜 出品丨牛刀財經(jīng)(niudaocaijing)7月5日,企鵝FM發(fā)布官方公告稱由于業(yè)務(wù)調(diào)整,將于9月6日正式停止運營,這意味著騰訊音樂長音頻業(yè)務(wù)走向消亡。騰訊在長音頻領(lǐng)域還在摸索。為
  • 中國家電海外掘金正當(dāng)時|出海專題

    作者|吳南南編輯|胡展嘉運營|陳佳慧出品|零態(tài)LT(ID:LingTai_LT)2023年,出海市場戰(zhàn)況空前,中國創(chuàng)業(yè)者在海外紛紛摩拳擦掌,以期能夠把中國的商業(yè)模式、創(chuàng)業(yè)理念、戰(zhàn)略打法輸出海外,他們依
  • 三星電子Q2營收60萬億韓元 存儲業(yè)務(wù)營收同比仍下滑超過50%

    7月27日消息,據(jù)外媒報道,從三星電子所發(fā)布的財報來看,他們主要利潤來源的存儲芯片業(yè)務(wù)在今年二季度仍不樂觀,營收同比仍在大幅下滑,所在的設(shè)備解決方案
  • SN570 NVMe SSD固態(tài)硬盤 價格與性能兼具

    SN570 NVMe SSD固態(tài)硬盤是西部數(shù)據(jù)發(fā)布的最新一代WD Blue系列的固態(tài)硬盤,不僅閃存技術(shù)更為精進,性能也得到了進一步的躍升。WD Blue SN570 NVMe SSD的包裝外
  • “買真退假” 這種“羊毛”不能薅

    □ 法治日報 記者 王春   □ 本報通訊員 胡佳麗  2020年初,還在上大學(xué)的小東加入了一個大學(xué)生兼職QQ群。群主“七王”在群里介紹一些刷單賺
Top 主站蜘蛛池模板: 兴山县| 正阳县| 西城区| 博罗县| 红原县| 正宁县| 内黄县| 昌邑市| 吴桥县| 阿坝县| 顺义区| 长葛市| 三原县| 谷城县| 揭东县| 六枝特区| 南康市| 临桂县| 海晏县| 泾阳县| 德阳市| 定日县| 塔城市| 潞城市| 永平县| 云浮市| 忻城县| 通榆县| 阿尔山市| 新巴尔虎左旗| 清徐县| 聂荣县| 衢州市| 朔州市| 常宁市| 同仁县| 准格尔旗| 巫溪县| 黑山县| 巩义市| 隆德县|