當(dāng)前位置：首頁 > 元宇宙 > AI

院士領(lǐng)銜推出大模型的第 3 種記憶：比參數(shù)存儲(chǔ)和 RAG 都便宜，2.4B 模型越級(jí)打 13B

來源：責(zé)編：時(shí)間：2024-07-11 17:26:17 191觀看

導(dǎo)讀給大模型加上第三種記憶格式，把寶貴的參數(shù)從死記硬背知識(shí)中解放出來！中科院院士鄂維南領(lǐng)銜，上海算法創(chuàng)新研究院等團(tuán)隊(duì)推出 Memory3，比在參數(shù)中存儲(chǔ)知識(shí)以及 RAG 成本都更低，同時(shí)保持比 RAG 更高的解碼速度。在實(shí)驗(yàn)

給大模型加上第三種記憶格式，把寶貴的參數(shù)從死記硬背知識(shí)中解放出來！

中科院院士鄂維南領(lǐng)銜，上海算法創(chuàng)新研究院等團(tuán)隊(duì)推出 Memory3，比在參數(shù)中存儲(chǔ)知識(shí)以及 RAG 成本都更低，同時(shí)保持比 RAG 更高的解碼速度。

在實(shí)驗(yàn)中，僅有 2.4B 參數(shù)的 Memory3 模型不僅打敗了許多 7B-13B 的模型，在專業(yè)領(lǐng)域任務(wù)如醫(yī)學(xué)上的表現(xiàn)也超過了傳統(tǒng)的 RAG 方法，同時(shí)推理速度更快，“幻覺”問題也更少。

目前相關(guān)論文已上傳到 arXiv，并引起學(xué)術(shù)界關(guān)注。

知識(shí)按使用頻率分類

這一方法受人腦記憶原理啟發(fā)，獨(dú)立于存儲(chǔ)在模型參數(shù)中的隱性知識(shí)和推理時(shí)的短期工作工作記憶，給大模型添加了顯式記憶。

具體來說，人類的記憶大致可以分為三部分:

顯式記憶：可以主動(dòng)回憶的長(zhǎng)期記憶，比如讀過的文章。獲取顯式記憶很容易，但提取時(shí)需要一定的回憶過程。

隱式記憶：無意識(shí)使用的長(zhǎng)期記憶，比如騎自行車的技能。獲取隱式記憶需要大量重復(fù)練習(xí)，但使用時(shí)毫不費(fèi)力。

外部信息：存在大腦之外的信息，如考試時(shí)的備考資料。獲取和使用都很輕松，但遇到新問題時(shí)作用有限。

可以看出，三種記憶形式在獲取和使用的效率上形成了鮮明的互補(bǔ)。人腦會(huì)根據(jù)知識(shí)的使用頻率，巧妙地在它們之間分配存儲(chǔ)位置，從而最小化整體開銷。

反觀大模型，目前主要依賴在參數(shù)中以隱式記憶的形式來存儲(chǔ)知識(shí)，這導(dǎo)致兩個(gè)問題：

知識(shí)分配效率低：無論一個(gè)知識(shí)使用得多頻繁，都一視同仁塞進(jìn)參數(shù)里，導(dǎo)致大量冷知識(shí)占用了寶貴的參數(shù)空間。

知識(shí)提取效率低：每次使用知識(shí)，都得動(dòng)用大量參數(shù)參與計(jì)算。

目前在訓(xùn)練階段，團(tuán)隊(duì)將大模型比作顯式記憶能力受損的患者，靠學(xué)習(xí)如何系鞋帶一樣的大量重復(fù)練習(xí)才能背下一點(diǎn)知識(shí)，消耗大量的數(shù)據(jù)和能量。

在推理階段，大模型又好像一個(gè)人每寫一個(gè)單詞時(shí)都要回憶起畢生所學(xué)的一切，就很不合理。

基于以上思路，團(tuán)隊(duì)按照知識(shí)的預(yù)期使用頻率（橫軸）計(jì)算了讀寫成本（縱軸），陰影區(qū)域表示給定記憶格式的最小成本區(qū)域。

結(jié)果發(fā)現(xiàn)，把常用知識(shí)塞進(jìn)模型參數(shù)里成本最低，但容量有限；不常用的知識(shí)直接檢索效率最高，但每次讀取都要重新編碼，成本高；而顯式記憶則是個(gè)平衡點(diǎn)，對(duì)于使用次數(shù)中等的大部分知識(shí)最劃算。

記憶電路理論

團(tuán)隊(duì)進(jìn)一步在論文中提記憶電路理論，在大模型語境下重新定義知識(shí)和記憶，以確定哪些知識(shí)更適合存儲(chǔ)為顯式記憶，以及什么樣的模型架構(gòu)適合讀寫顯式記憶。

通過分析一些已知的大模型內(nèi)部機(jī)制，如事實(shí)問答、搜索復(fù)制粘貼等，團(tuán)隊(duì)認(rèn)為大模型中的每條知識(shí)都可以表示為一個(gè)輸入-輸出關(guān)系，加上實(shí)現(xiàn)這個(gè)關(guān)系的內(nèi)部電路（circuit）。

電路指計(jì)算圖中的一個(gè)子圖，由一些注意力頭和 MLP 神經(jīng)元組成，這些電路的輸入輸出具有一定的語義關(guān)聯(lián)。大模型的知識(shí)可進(jìn)一步分為兩類:

具體知識(shí)（specific knowledge）：電路的輸入和輸出都具有明確的語義，如常識(shí)、常見短語等。

抽象知識(shí)（abstract knowledge）：電路的輸出語義可變，如搜索、復(fù)制、粘貼，需要通過輸入推理出輸出。

接下來，作者引入可分離知識(shí)（separable knowledge）的概念：如果一個(gè)知識(shí)可以僅通過文本實(shí)現(xiàn)而不必內(nèi)置到模型參數(shù)里，那它就是可分離的。

可模仿知識(shí)（imitable knowledge）是可分離知識(shí)的一個(gè)特例，可以直接用描述這條知識(shí)自身的文本去“教會(huì)”另一個(gè)不具備這條知識(shí)的大模型，無需通過參數(shù)來編碼。

一個(gè)核心結(jié)論是，具體知識(shí)都是可模仿的，因此也是可分離的，都可轉(zhuǎn)化為顯式記憶。論文從理論上給出了（非形式化）證明。

團(tuán)隊(duì)進(jìn)一步把具體知識(shí)按使用次數(shù)分成“無關(guān)緊要”、專業(yè)知識(shí)和常見短語三個(gè)等級(jí)，不同等級(jí)按照讀寫成本分別適合三種不同的記憶格式。

擁有顯式記憶的大模型 Memory3

那么如何實(shí)現(xiàn)顯式記憶呢？

以注意力層的 key-value 向量作為顯式記憶的載體，在推理之前，Memory3 模型將所有引用文本轉(zhuǎn)換為顯式記憶，并將它們保存在硬盤或非易失性內(nèi)存設(shè)備上。

在推理時(shí)，模型會(huì)查詢與當(dāng)前上下文最相關(guān)的一些顯式記憶，將它們并入注意力機(jī)制中，與上下文的 key-value 向量一起計(jì)算注意力分?jǐn)?shù)，生成下一個(gè) token。

然而，海量文本轉(zhuǎn)化成的顯式記憶不僅需要更多的磁盤空間，而且在推理過程中還會(huì)占用 GPU 內(nèi)存，從而損害 LLM 生成的吞吐量。

為此，Memory3 采取了多維度壓縮優(yōu)化策略：

layer 維度：只有前半部分的注意力層（記憶層）產(chǎn)生和存取顯式記憶，后半部分仍然是普通的注意力層。

head 維度：每層只有少部分 head（如 1/5）負(fù)責(zé)處理顯式記憶的 key-value，其他 head 保持原樣。

token 維度：對(duì)于每個(gè) head，只選取參考文本中最相關(guān)的少量 token（如 8 個(gè)），提取其 key-value 作為顯式記憶。

最后再進(jìn)一步用向量量化（vector quantization）壓縮每個(gè) key 和 value 向量到更短的表示。

多級(jí)壓縮的組合，使得顯式記憶的規(guī)模從 45.9TB 壓縮到 4.02TB，壓縮到一個(gè) GPU 集群通常配備的存儲(chǔ)容量之內(nèi)。

另外，團(tuán)隊(duì)在顯式記憶的讀寫上還有一些值得注意的細(xì)節(jié)設(shè)計(jì)：

推理時(shí)為了避免不同文本片段重復(fù)檢索顯式記憶，Memory3 每隔 64 個(gè) token 做一次檢索，中間共享檢索結(jié)果。

頻繁調(diào)用顯式記憶會(huì)產(chǎn)生 IO 開銷。為此，Memory3 在內(nèi)存中維護(hù)了一個(gè)固定大小的緩存，存儲(chǔ)最近訪問過的顯式記憶。

對(duì)于參考文本，模型使用不同的輸入符號(hào)（“<s>Reference:”）將其與普通文本區(qū)分開，避免干擾文本理解。

對(duì)于顯式記憶中的不同文本片段，模型為其分配了同一區(qū)間的位置編碼，保留局部上下文。這種”平行”位置編碼避免了長(zhǎng)文本中間部分被忽略的問題。

最終訓(xùn)練出來的 Memory3 模型，在 HuggingFace 排行榜上的評(píng)測(cè)結(jié)果如下，顯式記憶將平均分?jǐn)?shù)提高了 2.51%。

相比之下 Llama2-7B 和 13B 之間的分?jǐn)?shù)差異為 4.91%，而 13B 模型的非嵌入?yún)?shù)數(shù)量接近 7B 模型的兩倍。

因此，可以說顯式記憶可以將“有效模型大小”提高了 2.51/4.91≈51.1%。如果用 Qwen-1.8B 和 4B 來做參考，計(jì)算結(jié)果相似，“有效模型大小”提高 49.4%。

在幻覺評(píng)估上，Memory3 避免了將文本壓縮到模型參數(shù)中可能會(huì)導(dǎo)致的信息丟失，表現(xiàn)的比大部分模型要好。

論文中還詳細(xì)報(bào)告了從數(shù)據(jù)到訓(xùn)練、微調(diào)和對(duì)齊過程的具體設(shè)置，感興趣的可以查看原文。

論文地址

https://arxiv.org/abs/2407.01178

參考鏈接

[1]https://x.com/rohanpaul_ai/status/1809782336021537094

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：夢(mèng)晨

本文鏈接：http://www.www897cc.com/showinfo-45-5088-0.html院士領(lǐng)銜推出大模型的第 3 種記憶：比參數(shù)存儲(chǔ)和 RAG 都便宜，2.4B 模型越級(jí)打 13B

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：古爾曼：蘋果首款支持 Apple Intelligence 的智能家居設(shè)備將是一款桌面機(jī)器人

下一篇：中國(guó)開源操作系統(tǒng) openKylin（開放麒麟）發(fā)布 AIPC 版本

標(biāo)簽：

熱門焦點(diǎn)

25萬虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場(chǎng)個(gè)人元宇宙演唱會(huì)《以夢(mèng)為馬，抵達(dá)繁星》在大有空間APP
保時(shí)捷推出虛擬超跑，車企元宇宙營(yíng)銷這么香？

保時(shí)捷又出超跑了，不過這次不是在現(xiàn)實(shí)世界，而是在虛擬世界。這款Vision Gran Turismo概念車，由保時(shí)捷和日本視頻游戲開發(fā)工作室Polyphony Digital聯(lián)合打造，將于202
2022年中國(guó)元宇宙產(chǎn)業(yè)系列研究報(bào)告-基礎(chǔ)設(shè)施篇（5）

傳感器是由敏感元件和轉(zhuǎn)換元件構(gòu)成，能夠感受規(guī)定的檢測(cè)量(物理量、化學(xué)量、生物量等)，并按照一定規(guī)律將檢測(cè)量轉(zhuǎn)化成可用的輸出信號(hào)的器件和裝置，進(jìn)而滿足信息的
紐約街頭出現(xiàn)NFT自動(dòng)販賣機(jī)

一家初創(chuàng)公司宣布在紐約市開放一臺(tái)NFT自動(dòng)售貨機(jī)，允許任何人——即使是沒有加密資產(chǎn)的人也能購買NFT。該交易平臺(tái)名為Neon，上個(gè)月完成了一輪300萬美元的種子募捐
元宇宙存在的意義和價(jià)值

科技公司目前都在猶豫，看誰能在元宇宙上押下更大的賭注。然而，除了巨額的資金投入，到底要怎樣才能獲勝在很大程度上還沒有得到證實(shí)。它是否僅僅是對(duì)當(dāng)前數(shù)字景觀
多位全國(guó)政協(xié)委員提交元宇宙提案，國(guó)金證券稱元宇宙仍處初期投資階段

財(cái)聯(lián)社|區(qū)塊鏈日?qǐng)?bào)2日訊今日《元宇宙新鮮事》有：全國(guó)政協(xié)委員劉偉建議出臺(tái)“元宇宙中國(guó)”的頂層設(shè)計(jì)方案；國(guó)金證券稱元宇宙仍處初期投資龐大獲利不易階段；阿聯(lián)酋
元宇宙專題二：GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點(diǎn)為“Play to Earn”。通過技術(shù)與去中心化價(jià)值觀賦能，GameFi 游戲資產(chǎn)化身為NFT 和代幣上鏈，具備了可驗(yàn)證性和流通性；開
元宇宙不完全是想出來的，而是實(shí)打?qū)嵶龀鰜淼?/a>

沈陽強(qiáng)調(diào)，元宇宙不完全是想出來的，而是靠實(shí)打?qū)嵶龀鰜淼?；互?lián)網(wǎng)向三維化升級(jí)是已經(jīng)明確的大方向，這意味著大量的資金和技術(shù)會(huì)持續(xù)涌入?？缛?022年，元宇宙并沒有“

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對(duì)元宇宙的發(fā)展而設(shè)立的專欄，主要面向那些深挖元宇宙產(chǎn)業(yè)或者在元宇宙進(jìn)行“淘金”的從業(yè)者，分享這些企業(yè)或者創(chuàng)業(yè)者們的故事，以獨(dú)特

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

院士領(lǐng)銜推出大模型的第 3 種記憶：比參數(shù)存儲(chǔ)和 RAG 都便宜，2.4B 模型越級(jí)打 13B

25萬虛擬er在“元宇宙”追星

保時(shí)捷推出虛擬超跑，車企元宇宙營(yíng)銷這么香？

2022年中國(guó)元宇宙產(chǎn)業(yè)系列研究報(bào)告-基礎(chǔ)設(shè)施篇（5）

紐約街頭出現(xiàn)NFT自動(dòng)販賣機(jī)

元宇宙存在的意義和價(jià)值

多位全國(guó)政協(xié)委員提交元宇宙提案，國(guó)金證券稱元宇宙仍處初期投資階段

元宇宙專題二：GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

元宇宙不完全是想出來的，而是實(shí)打?qū)嵶龀鰜淼?/a>

最新推薦

元宇宙步入暗夜

元宇宙風(fēng)口下，視覺中國(guó)如何重估？

避坑指南：遠(yuǎn)離具有這些特性的NFT

從NFT頂級(jí)公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

盤點(diǎn)9個(gè)主流元宇宙平臺(tái)，你都知道哪些？

冬奧會(huì)數(shù)字收藏品升溫，市場(chǎng)再現(xiàn)“一墩難求”

猜你喜歡

熱門推薦

相關(guān)資訊

院士領(lǐng)銜推出大模型的第 3 種記憶：比參數(shù)存儲(chǔ)和 RAG 都便宜，2.4B 模型越級(jí)打 13B

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

院士領(lǐng)銜推出大模型的第 3 種記憶：比參數(shù)存儲(chǔ)和 RAG 都便宜，2.4B 模型越級(jí)打 13B