日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

院士領(lǐng)銜推出大模型的第 3 種記憶:比參數(shù)存儲(chǔ)和 RAG 都便宜,2.4B 模型越級(jí)打 13B

來(lái)源: 責(zé)編: 時(shí)間:2024-07-11 17:26:17 154觀看
導(dǎo)讀 給大模型加上第三種記憶格式,把寶貴的參數(shù)從死記硬背知識(shí)中解放出來(lái)!中科院院士鄂維南領(lǐng)銜,上海算法創(chuàng)新研究院等團(tuán)隊(duì)推出 Memory3,比在參數(shù)中存儲(chǔ)知識(shí)以及 RAG 成本都更低,同時(shí)保持比 RAG 更高的解碼速度。在實(shí)驗(yàn)

給大模型加上第三種記憶格式,把寶貴的參數(shù)從死記硬背知識(shí)中解放出來(lái)!e6x28資訊網(wǎng)——每日最新資訊28at.com

中科院院士鄂維南領(lǐng)銜,上海算法創(chuàng)新研究院等團(tuán)隊(duì)推出 Memory3,比在參數(shù)中存儲(chǔ)知識(shí)以及 RAG 成本都更低,同時(shí)保持比 RAG 更高的解碼速度。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

在實(shí)驗(yàn)中,僅有 2.4B 參數(shù)的 Memory3 模型不僅打敗了許多 7B-13B 的模型,在專業(yè)領(lǐng)域任務(wù)如醫(yī)學(xué)上的表現(xiàn)也超過(guò)了傳統(tǒng)的 RAG 方法,同時(shí)推理速度更快,“幻覺(jué)”問(wèn)題也更少。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

目前相關(guān)論文已上傳到 arXiv,并引起學(xué)術(shù)界關(guān)注。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

知識(shí)按使用頻率分類

這一方法受人腦記憶原理啟發(fā),獨(dú)立于存儲(chǔ)在模型參數(shù)中的隱性知識(shí)和推理時(shí)的短期工作工作記憶,給大模型添加了顯式記憶。e6x28資訊網(wǎng)——每日最新資訊28at.com

具體來(lái)說(shuō),人類的記憶大致可以分為三部分:e6x28資訊網(wǎng)——每日最新資訊28at.com

顯式記憶:可以主動(dòng)回憶的長(zhǎng)期記憶,比如讀過(guò)的文章。獲取顯式記憶很容易,但提取時(shí)需要一定的回憶過(guò)程。e6x28資訊網(wǎng)——每日最新資訊28at.com

隱式記憶:無(wú)意識(shí)使用的長(zhǎng)期記憶,比如騎自行車的技能。獲取隱式記憶需要大量重復(fù)練習(xí),但使用時(shí)毫不費(fèi)力。e6x28資訊網(wǎng)——每日最新資訊28at.com

外部信息:存在大腦之外的信息,如考試時(shí)的備考資料。獲取和使用都很輕松,但遇到新問(wèn)題時(shí)作用有限。e6x28資訊網(wǎng)——每日最新資訊28at.com

可以看出,三種記憶形式在獲取和使用的效率上形成了鮮明的互補(bǔ)。人腦會(huì)根據(jù)知識(shí)的使用頻率,巧妙地在它們之間分配存儲(chǔ)位置,從而最小化整體開(kāi)銷。e6x28資訊網(wǎng)——每日最新資訊28at.com

反觀大模型,目前主要依賴在參數(shù)中以隱式記憶的形式來(lái)存儲(chǔ)知識(shí),這導(dǎo)致兩個(gè)問(wèn)題:e6x28資訊網(wǎng)——每日最新資訊28at.com

知識(shí)分配效率低:無(wú)論一個(gè)知識(shí)使用得多頻繁,都一視同仁塞進(jìn)參數(shù)里,導(dǎo)致大量冷知識(shí)占用了寶貴的參數(shù)空間。e6x28資訊網(wǎng)——每日最新資訊28at.com

知識(shí)提取效率低:每次使用知識(shí),都得動(dòng)用大量參數(shù)參與計(jì)算。e6x28資訊網(wǎng)——每日最新資訊28at.com

目前在訓(xùn)練階段,團(tuán)隊(duì)將大模型比作顯式記憶能力受損的患者,靠學(xué)習(xí)如何系鞋帶一樣的大量重復(fù)練習(xí)才能背下一點(diǎn)知識(shí),消耗大量的數(shù)據(jù)和能量。e6x28資訊網(wǎng)——每日最新資訊28at.com

在推理階段,大模型又好像一個(gè)人每寫一個(gè)單詞時(shí)都要回憶起畢生所學(xué)的一切,就很不合理。e6x28資訊網(wǎng)——每日最新資訊28at.com

基于以上思路,團(tuán)隊(duì)按照知識(shí)的預(yù)期使用頻率(橫軸)計(jì)算了讀寫成本(縱軸),陰影區(qū)域表示給定記憶格式的最小成本區(qū)域。e6x28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果發(fā)現(xiàn),把常用知識(shí)塞進(jìn)模型參數(shù)里成本最低,但容量有限;不常用的知識(shí)直接檢索效率最高,但每次讀取都要重新編碼,成本高;而顯式記憶則是個(gè)平衡點(diǎn),對(duì)于使用次數(shù)中等的大部分知識(shí)最劃算。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

記憶電路理論

團(tuán)隊(duì)進(jìn)一步在論文中提記憶電路理論,在大模型語(yǔ)境下重新定義知識(shí)和記憶,以確定哪些知識(shí)更適合存儲(chǔ)為顯式記憶,以及什么樣的模型架構(gòu)適合讀寫顯式記憶。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

通過(guò)分析一些已知的大模型內(nèi)部機(jī)制,如事實(shí)問(wèn)答、搜索復(fù)制粘貼等,團(tuán)隊(duì)認(rèn)為大模型中的每條知識(shí)都可以表示為一個(gè)輸入-輸出關(guān)系,加上實(shí)現(xiàn)這個(gè)關(guān)系的內(nèi)部電路(circuit)。e6x28資訊網(wǎng)——每日最新資訊28at.com

電路指計(jì)算圖中的一個(gè)子圖,由一些注意力頭和 MLP 神經(jīng)元組成,這些電路的輸入輸出具有一定的語(yǔ)義關(guān)聯(lián)。大模型的知識(shí)可進(jìn)一步分為兩類:e6x28資訊網(wǎng)——每日最新資訊28at.com

具體知識(shí)(specific knowledge):電路的輸入和輸出都具有明確的語(yǔ)義,如常識(shí)、常見(jiàn)短語(yǔ)等。e6x28資訊網(wǎng)——每日最新資訊28at.com

抽象知識(shí)(abstract knowledge):電路的輸出語(yǔ)義可變,如搜索、復(fù)制、粘貼,需要通過(guò)輸入推理出輸出。e6x28資訊網(wǎng)——每日最新資訊28at.com

接下來(lái),作者引入可分離知識(shí)(separable knowledge)的概念:如果一個(gè)知識(shí)可以僅通過(guò)文本實(shí)現(xiàn)而不必內(nèi)置到模型參數(shù)里,那它就是可分離的。e6x28資訊網(wǎng)——每日最新資訊28at.com

可模仿知識(shí)(imitable knowledge)是可分離知識(shí)的一個(gè)特例,可以直接用描述這條知識(shí)自身的文本去“教會(huì)”另一個(gè)不具備這條知識(shí)的大模型,無(wú)需通過(guò)參數(shù)來(lái)編碼。e6x28資訊網(wǎng)——每日最新資訊28at.com

一個(gè)核心結(jié)論是,具體知識(shí)都是可模仿的,因此也是可分離的,都可轉(zhuǎn)化為顯式記憶。論文從理論上給出了(非形式化)證明。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

團(tuán)隊(duì)進(jìn)一步把具體知識(shí)按使用次數(shù)分成“無(wú)關(guān)緊要”、專業(yè)知識(shí)和常見(jiàn)短語(yǔ)三個(gè)等級(jí),不同等級(jí)按照讀寫成本分別適合三種不同的記憶格式。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

擁有顯式記憶的大模型 Memory3

那么如何實(shí)現(xiàn)顯式記憶呢?e6x28資訊網(wǎng)——每日最新資訊28at.com

以注意力層的 key-value 向量作為顯式記憶的載體,在推理之前,Memory3 模型將所有引用文本轉(zhuǎn)換為顯式記憶,并將它們保存在硬盤或非易失性內(nèi)存設(shè)備上。e6x28資訊網(wǎng)——每日最新資訊28at.com

在推理時(shí),模型會(huì)查詢與當(dāng)前上下文最相關(guān)的一些顯式記憶,將它們并入注意力機(jī)制中,與上下文的 key-value 向量一起計(jì)算注意力分?jǐn)?shù),生成下一個(gè) token。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

然而,海量文本轉(zhuǎn)化成的顯式記憶不僅需要更多的磁盤空間,而且在推理過(guò)程中還會(huì)占用 GPU 內(nèi)存,從而損害 LLM 生成的吞吐量。e6x28資訊網(wǎng)——每日最新資訊28at.com

為此,Memory3 采取了多維度壓縮優(yōu)化策略:e6x28資訊網(wǎng)——每日最新資訊28at.com

layer 維度:只有前半部分的注意力層(記憶層)產(chǎn)生和存取顯式記憶,后半部分仍然是普通的注意力層。e6x28資訊網(wǎng)——每日最新資訊28at.com

head 維度:每層只有少部分 head(如 1/5)負(fù)責(zé)處理顯式記憶的 key-value,其他 head 保持原樣。e6x28資訊網(wǎng)——每日最新資訊28at.com

token 維度:對(duì)于每個(gè) head,只選取參考文本中最相關(guān)的少量 token(如 8 個(gè)),提取其 key-value 作為顯式記憶。e6x28資訊網(wǎng)——每日最新資訊28at.com

最后再進(jìn)一步用向量量化(vector quantization)壓縮每個(gè) key 和 value 向量到更短的表示。e6x28資訊網(wǎng)——每日最新資訊28at.com

多級(jí)壓縮的組合,使得顯式記憶的規(guī)模從 45.9TB 壓縮到 4.02TB,壓縮到一個(gè) GPU 集群通常配備的存儲(chǔ)容量之內(nèi)。e6x28資訊網(wǎng)——每日最新資訊28at.com

另外,團(tuán)隊(duì)在顯式記憶的讀寫上還有一些值得注意的細(xì)節(jié)設(shè)計(jì):e6x28資訊網(wǎng)——每日最新資訊28at.com

推理時(shí)為了避免不同文本片段重復(fù)檢索顯式記憶,Memory3 每隔 64 個(gè) token 做一次檢索,中間共享檢索結(jié)果。e6x28資訊網(wǎng)——每日最新資訊28at.com

頻繁調(diào)用顯式記憶會(huì)產(chǎn)生 IO 開(kāi)銷。為此,Memory3 在內(nèi)存中維護(hù)了一個(gè)固定大小的緩存,存儲(chǔ)最近訪問(wèn)過(guò)的顯式記憶。e6x28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于參考文本,模型使用不同的輸入符號(hào)(“<s>Reference:”)將其與普通文本區(qū)分開(kāi),避免干擾文本理解。e6x28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于顯式記憶中的不同文本片段,模型為其分配了同一區(qū)間的位置編碼,保留局部上下文。這種”平行”位置編碼避免了長(zhǎng)文本中間部分被忽略的問(wèn)題。e6x28資訊網(wǎng)——每日最新資訊28at.com

最終訓(xùn)練出來(lái)的 Memory3 模型,在 HuggingFace 排行榜上的評(píng)測(cè)結(jié)果如下,顯式記憶將平均分?jǐn)?shù)提高了 2.51%。e6x28資訊網(wǎng)——每日最新資訊28at.com

相比之下 Llama2-7B 和 13B 之間的分?jǐn)?shù)差異為 4.91%,而 13B 模型的非嵌入?yún)?shù)數(shù)量接近 7B 模型的兩倍。e6x28資訊網(wǎng)——每日最新資訊28at.com

因此,可以說(shuō)顯式記憶可以將“有效模型大小”提高了 2.51/4.91≈51.1%。如果用 Qwen-1.8B 和 4B 來(lái)做參考,計(jì)算結(jié)果相似,“有效模型大小”提高 49.4%。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

在幻覺(jué)評(píng)估上,Memory3 避免了將文本壓縮到模型參數(shù)中可能會(huì)導(dǎo)致的信息丟失,表現(xiàn)的比大部分模型要好。e6x28資訊網(wǎng)——每日最新資訊28at.com

e6x28資訊網(wǎng)——每日最新資訊28at.com

論文中還詳細(xì)報(bào)告了從數(shù)據(jù)到訓(xùn)練、微調(diào)和對(duì)齊過(guò)程的具體設(shè)置,感興趣的可以查看原文。e6x28資訊網(wǎng)——每日最新資訊28at.com

論文地址e6x28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2407.01178e6x28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接e6x28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/rohanpaul_ai/status/1809782336021537094e6x28資訊網(wǎng)——每日最新資訊28at.com

本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:夢(mèng)晨e6x28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-5088-0.html院士領(lǐng)銜推出大模型的第 3 種記憶:比參數(shù)存儲(chǔ)和 RAG 都便宜,2.4B 模型越級(jí)打 13B

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 古爾曼:蘋果首款支持 Apple Intelligence 的智能家居設(shè)備將是一款桌面機(jī)器人

下一篇: 中國(guó)開(kāi)源操作系統(tǒng) openKylin(開(kāi)放麒麟)發(fā)布 AIPC 版本

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 嵊泗县| 筠连县| 长宁区| 肃北| 中超| 二连浩特市| 嘉荫县| 衢州市| 莱西市| 凤凰县| 辉南县| 永安市| 开封县| 恭城| 佛坪县| 荣成市| 前郭尔| 武鸣县| 新巴尔虎左旗| 广州市| 改则县| 伊春市| 平邑县| 方城县| 闽侯县| 芦山县| 基隆市| 山东省| 高台县| 阿克| 潞城市| 沛县| 姜堰市| 吉安县| 濮阳市| 防城港市| 崇阳县| 丰县| 德格县| 肇庆市| 西乌珠穆沁旗|