日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

LLM 的“母語”是什么?

來源: 責(zé)編: 時間:2024-06-05 17:34:50 195觀看
導(dǎo)讀 編輯:alan【新智元導(dǎo)讀】在以英語為主的語料庫上訓(xùn)練的多語言 LLM,是否使用英語作為內(nèi)部語言?對此,來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。大語言模型的「母語」是什么?我們的第一反應(yīng)很可能是:

Fc428資訊網(wǎng)——每日最新資訊28at.com

編輯:alanFc428資訊網(wǎng)——每日最新資訊28at.com

【新智元導(dǎo)讀】在以英語為主的語料庫上訓(xùn)練的多語言 LLM,是否使用英語作為內(nèi)部語言?對此,來自 EPFL 的研究人員針對 Llama 2 家族進行了一系列實驗。Fc428資訊網(wǎng)——每日最新資訊28at.com

大語言模型的「母語」是什么?Fc428資訊網(wǎng)——每日最新資訊28at.com

我們的第一反應(yīng)很可能是:英語。Fc428資訊網(wǎng)——每日最新資訊28at.com

但事實果真如此嗎?尤其是對于能夠聽說讀寫多種語言的 LLM 來說。Fc428資訊網(wǎng)——每日最新資訊28at.com

對此,來自 EPFL(洛桑聯(lián)邦理工學(xué)院)的研究人員發(fā)表了下面這篇工作來一探究竟:Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/ pdf / 2402.10588項目地址:https://github.com/ epfl-dlab / llm-latent-language

作者以 Llama2 為對象,向我們展示了具有多語言能力的 Transformer,是如何思考問題的。Fc428資訊網(wǎng)——每日最新資訊28at.com

像「羊駝」這種在英語區(qū)下長大的娃,他的「多語言」到底是本質(zhì)屬性,還是僅僅套了個翻譯的殼?Fc428資訊網(wǎng)——每日最新資訊28at.com

這對于人們理解 LLM 的運行機制至關(guān)重要。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

要探究大模型的內(nèi)心世界,雖然聽起來有點復(fù)雜,但實際上一點也不簡單。Fc428資訊網(wǎng)——每日最新資訊28at.com

研究人員在這里化繁為簡,使用特定的提示來保證輸出的唯一性,同時把 Llama-2-7B 的 32 層輸出全部提取出來 —— 一層一層一層地剝開她的心。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

于是,我們能在上圖清楚地看到,羊駝在得到中文翻譯(「花」)時的整個推理過程。Fc428資訊網(wǎng)——每日最新資訊28at.com

Transformer 將輸入 token 進行逐層映射,最終預(yù)測出下一個 token,中間那些我們大概能理解或者不能理解的字符串,就是 LLM 使用的「內(nèi)部語言」。Fc428資訊網(wǎng)——每日最新資訊28at.com

顯然,在中間層的「思考」環(huán)節(jié),羊駝用的是偏向于英語的某種神秘文字。這里需要強調(diào)一下,這是羊駝的自發(fā)行為,因為提示中壓根就沒有一點英語!Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

比如上圖是其中的一個實驗,構(gòu)建了法語翻譯中文的提示,且限制了正確答案只需 1 個 token(花)。Fc428資訊網(wǎng)——每日最新資訊28at.com

而下圖的統(tǒng)計顯示:在 Llama2 的大部分前向傳遞中,正確中文 token(藍色)的概率遠低于英文翻譯(橙色)的概率。中文只在最后兩層中占據(jù)主導(dǎo)地位。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

為了方便大家觀察,作者還將嵌入在高維空間中的路徑的可視化(實際是 8192 個維度,這里使用 2D 展示)。Fc428資訊網(wǎng)——每日最新資訊28at.com

從輸入到輸出,軌跡以紅色開始,以紫色結(jié)束。我們可以看到,這些路徑基本都是先繞道英語,然后才返回正確的中文。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

不過,這是否確實表明 Llama2 先用英文進行推理,然后將再其翻譯成中文?Fc428資訊網(wǎng)——每日最新資訊28at.com

作者表示,比這更微妙一點。那些看起來像英語的中間嵌入實際上對應(yīng)于抽象概念,而不是具體的英文 token。Fc428資訊網(wǎng)——每日最新資訊28at.com

所以,一方面,Llama2 內(nèi)部的「通用語」不是英語,而是概念;但另一方面,這些神秘字符又顯然是偏向于英語的概念。Fc428資訊網(wǎng)——每日最新資訊28at.com

因此,在語義上,而非純粹的詞匯意義上,英語確實可以被視為羊駝的「母語」。Fc428資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友:我早就發(fā)現(xiàn)了

有網(wǎng)友表示:恕我直言,不僅僅是羊駝系列,基本上所有 LLM 都是這樣。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

「對于以英語為母語的人來說,這可能會令人驚訝,但對于其他人來說,這種傾向性是可見的,只不過有時多,有時少。」Fc428資訊網(wǎng)——每日最新資訊28at.com

「有時我會想 LLM 為什么要這樣回答,然后我意識到這個答案在英語中更有意義。」Fc428資訊網(wǎng)——每日最新資訊28at.com

「這在詩歌中更是顯而易見的。LLM 寫詩很漂亮,但通常沒有押韻 —— 如果你把它翻譯成英語,就押韻了。」Fc428資訊網(wǎng)——每日最新資訊28at.com

另一位網(wǎng)友表示,這是大模型帶來的偏見,要小心了。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

「英語和中文最終將成為 LLM 提示和輸出的最佳語言,而隨著 LLM 的應(yīng)用范圍越來越廣泛,世界其他語言將更加邊緣化。」Fc428資訊網(wǎng)——每日最新資訊28at.com

模型表達空間的探索

當(dāng)嵌入逐層轉(zhuǎn)換時,它們會經(jīng)歷 3 個階段:Fc428資訊網(wǎng)——每日最新資訊28at.com

1. 輸入空間:模型消除分詞器帶來的影響。Fc428資訊網(wǎng)——每日最新資訊28at.com

2. 概念空間:嵌入進入一個抽象的概念空間中。Fc428資訊網(wǎng)——每日最新資訊28at.com

3. 輸出空間:概念被映射回原本的表達形式。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

模型

實驗專注于 Llama-2 系列語言模型。Llama-2 系列模型在多語言語料庫上進行訓(xùn)練,語料庫主要由英語主導(dǎo)(占 89.70%)。Fc428資訊網(wǎng)——每日最新資訊28at.com

不過考慮到總體訓(xùn)練數(shù)據(jù)的大小(2 萬億個 token),即使是一小部分非英語訓(xùn)練數(shù)據(jù),絕對值仍然很大(德語占 0.17%=3.4B,中文占 0.13%=2.6B)。Fc428資訊網(wǎng)——每日最新資訊28at.com

Llama-2 有 7B / 13B / 70B 三種尺寸,分別為 32/40/80 層,嵌入維度 d=4096/5120/8192,詞匯表 V 包含 32,000 個 token。實驗中使用 8 位量化探究這三種不同大小的模型。Fc428資訊網(wǎng)——每日最新資訊28at.com

實驗

實驗的目標(biāo)是探索 Llama-2 的內(nèi)部狀態(tài),是否與特定的自然語言相對應(yīng),這需要從 token 分布映射到語言。Fc428資訊網(wǎng)——每日最新資訊28at.com

為了規(guī)避許多 token 在語言方面上模棱兩可的問題,研究人員構(gòu)造了特殊的提示,限制 token 輸出的唯一性,并且可以明確地歸因于某一種語言。Fc428資訊網(wǎng)——每日最新資訊28at.com

翻譯任務(wù)Fc428資訊網(wǎng)——每日最新資訊28at.com

將前面的非英語(例如法語)單詞翻譯成中文,示例如下,向模型展示四個單詞,并帶有正確的翻譯,后跟第五個沒有翻譯的單詞,讓模型預(yù)測下一個 token:Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

重復(fù)任務(wù)Fc428資訊網(wǎng)——每日最新資訊28at.com

要求模型簡單地重復(fù)最后一個單詞,提示如下:Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

完形填空任務(wù)Fc428資訊網(wǎng)——每日最新資訊28at.com

作為一項稍微困難的任務(wù),模型需要預(yù)測句子中缺失的單詞。給定一個目標(biāo)單詞,通過 GPT-4 構(gòu)建一個以該單詞開頭的英語句子,屏蔽目標(biāo)單詞,并將該句子翻譯成其他語言。英語示例如下:Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

單詞選擇Fc428資訊網(wǎng)——每日最新資訊28at.com

為了實現(xiàn)明確的語言歸屬,研究人員為每種語言構(gòu)建了一組封閉的單詞。掃描 Llama-2 的詞匯表,尋找具有單 token 英文翻譯的單 token 中文單詞(主要是名詞)。Fc428資訊網(wǎng)——每日最新資訊28at.com

這樣一來,Llama-2 預(yù)測下一個中文單詞的正確概率就可以直接從下一個 token 概率中讀出。Fc428資訊網(wǎng)——每日最新資訊28at.com

保險起見,作者還在德語、法語和俄語上進行了相同的實驗,總共測試了 139 個中文、104 個德語、56 個法語和 115 個俄語單詞。三個任務(wù)的測試結(jié)果如下:Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

上圖表示 Llama-2 前向傳遞期間,每一層輸出是英語還是中文的概率,三個任務(wù)分別為:(a)從德語 / 法語 / 俄語到中文的翻譯任務(wù),(b)中文重復(fù)任務(wù),(c)中文完形填空任務(wù)。Fc428資訊網(wǎng)——每日最新資訊28at.com

誤差線顯示輸入文本的 95% 高斯置信區(qū)間(翻譯任務(wù)為 353,重復(fù)任務(wù)和完形填空為 139)。Fc428資訊網(wǎng)——每日最新資訊28at.com

8192D 太空漫游

自回歸 Transformer 是以增量方式求解的,每一層通過添加殘差來修改前一層產(chǎn)生的潛在向量,這一過程在幾何上可以描述為通過 d 維歐幾里得空間的路徑。Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

為了建立直覺,首先考慮一個假設(shè)的極端情況,即 token 位于整個 d 維空間的適當(dāng)子空間中。Fc428資訊網(wǎng)——每日最新資訊28at.com

如果 latent embedding(h)具有與 token 子空間正交的分量,則表示預(yù)測中包含與 h 無關(guān)的信息。Fc428資訊網(wǎng)——每日最新資訊28at.com

研究人員采用 h 和 token 嵌入之間的均方余弦,來表示 h 的能量有多少轉(zhuǎn)化為 logit 分?jǐn)?shù)。為了可解釋性,這里通過 token 嵌入本身的均方余弦進行歸一化,得到 h 的平方 token 能量:Fc428資訊網(wǎng)——每日最新資訊28at.com

Fc428資訊網(wǎng)——每日最新資訊28at.com

在上面的球形示意圖中,所有嵌入都位于原點周圍的球體上。token 嵌入位于赤道上,主要沿 x 軸分布,x 軸捕獲語言(左英文,右中文),y 軸捕捉概念,z 軸提供了額外的自由度,可用于存儲有關(guān)上下文、語言等的信息。Transformer 正向傳遞沿球體表面移動。Fc428資訊網(wǎng)——每日最新資訊28at.com

在第 1 階段,latent embedding 從北極開始,與輸出 token 和概念嵌入正交。Fc428資訊網(wǎng)——每日最新資訊28at.com

階段 2 旋轉(zhuǎn)到概念空間中,英語 token 占據(jù)主導(dǎo)。Fc428資訊網(wǎng)——每日最新資訊28at.com

最后,第 3 階段沿赤道旋轉(zhuǎn)到目標(biāo)語言的半球,產(chǎn)生輸出 token。Fc428資訊網(wǎng)——每日最新資訊28at.com

參考資料:Fc428資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2402.10588Fc428資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)Fc428資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4493-0.htmlLLM 的“母語”是什么?

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 世界最大開源 AI 社區(qū) Hugging Face 曝安全漏洞:部分用戶密鑰泄露

下一篇: 多國勞動力市場將因人工智能出現(xiàn)重大變化

標(biāo)簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 泰安市| 托克托县| 简阳市| 长垣县| 普兰县| 康乐县| 崇礼县| 平泉县| 兴义市| 略阳县| 滨海县| 教育| 乐平市| 霍州市| 财经| 江口县| 东阿县| 尼玛县| 乌拉特后旗| 永康市| 察雅县| 鸡泽县| 宝清县| 浮梁县| 茌平县| 甘泉县| 革吉县| 景泰县| 通化县| 柳州市| 揭东县| 溧阳市| 长岭县| 永宁县| 叙永县| 平乡县| 青冈县| 亚东县| 鄂尔多斯市| 峨眉山市| 大港区|