紅極一時(shí)的開(kāi)源MoE模型Mixtral,論文終于新鮮出爐!
除了披露了更多技術(shù)細(xì)節(jié),論文中還有一個(gè)結(jié)論引發(fā)了熱烈討論——
研究人員本想研究Mixtral是怎么根據(jù)話題分配專家的,結(jié)果發(fā)現(xiàn)專家的分配……和話題好像沒(méi)什么關(guān)系。
圖片
而在大多數(shù)人的印象中,Mixtral里的8個(gè)專家,是分別負(fù)責(zé)處理不同領(lǐng)域的話題的……
論文的結(jié)論曝光后,不少網(wǎng)友開(kāi)始認(rèn)為“專家混合”這個(gè)說(shuō)法,可能不那么貼切了:
圖片
于是,針對(duì)Mixtral真實(shí)的工作機(jī)制,有網(wǎng)友給出了這樣的比喻:
所以,比起“專家的組合”,這樣的工作方式更像是一種硬盤(pán)陣列或者負(fù)載均衡?
圖片
但也有網(wǎng)友表示了不同意見(jiàn):
這個(gè)問(wèn)題并不根屬于MoE,因?yàn)樽约褐耙?jiàn)過(guò)的MoE模型中,是發(fā)現(xiàn)了真·專家分工的現(xiàn)象的。
圖片
那么,這究竟是怎么一回事呢?
在訓(xùn)練過(guò)程中,作者觀察了Mixtral中是否有一些專家會(huì)針對(duì)某些特定領(lǐng)域進(jìn)行專門化。
具體來(lái)說(shuō),作者計(jì)算了第0、15、31層在The Pile驗(yàn)證集的不同子集(包含不同領(lǐng)域的文檔)上被選中的專家分布。
這些子集包括LaTeX格式的arXiv論文、生物學(xué)論文(PubMed摘要)、哲學(xué)論文(PhilPapers)和GitHub代碼等。
結(jié)果發(fā)現(xiàn),對(duì)這幾個(gè)層而言,除了數(shù)學(xué)領(lǐng)域(DM Mathematics)數(shù)據(jù)集的專家選擇略有不同外,其余數(shù)據(jù)集的專家分布都非常類似,并沒(méi)有體現(xiàn)出領(lǐng)域間有什么差別。
圖片
而在數(shù)學(xué)問(wèn)題上出現(xiàn)不同表現(xiàn)的原因,可能是由于其具有相對(duì)特殊的語(yǔ)法結(jié)構(gòu),進(jìn)一步的探究也證實(shí)了這一想法。
他們發(fā)現(xiàn),專家選擇會(huì)被句子的語(yǔ)法結(jié)構(gòu)所影響,一些語(yǔ)法關(guān)鍵詞,比如英語(yǔ)中的“Question”或者代碼中的“self”,被分配到相同的專家的概率非常大。
圖片
此外,定量的分析結(jié)果還發(fā)現(xiàn)了另一個(gè)專家分配規(guī)律——相鄰的token有很大概率被分配給同一專家。
作者比較了模型針對(duì)相鄰token選擇相同專家的概率,包括第一選擇一致率和第一二選擇一致率。
第一二選擇一致是指,模型針對(duì)兩個(gè)token分別做出的第一和第二選擇,只要存在交集即視為一致。
(比如第一個(gè)token的第一、二專家為分別為甲、乙,第二個(gè)token的第一、二專家分別為乙、丙,因?yàn)槎及艘遥褪且环N第一二選擇一致的情況)
因Mixtral中有8個(gè)專家,因此在全隨機(jī)的選擇方式下,第一選擇一致率應(yīng)為12.5%(1/8),第一二選擇一致率應(yīng)為1 - (6/8) × (5/7),約為46%。
但實(shí)際測(cè)試發(fā)現(xiàn),Mixtral第一和第一二選擇一致率高于隨機(jī)情況,特別是中間的第15層,說(shuō)明了模型在專家選擇上是具有傾向性的。
圖片
論文地址:https://arxiv.org/abs/2401.04088
本文鏈接:http://www.www897cc.com/showinfo-26-61006-0.html混合專家系統(tǒng)里根本沒(méi)專家?開(kāi)源MoE模型論文引網(wǎng)友熱議
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com