當前位置：首頁 > 元宇宙 > AI

Claude 團隊打開大模型“腦回路”，推出開源 LLM 思維可視化工具

來源：責編：時間：2025-06-04 08:01:06 21觀看

導讀 Claude 團隊來搞開源了 ——推出“電路追蹤”（circuit tracing）工具，可以幫大伙兒讀懂大模型的“腦回路”，追蹤其思維過程。該工具的核心在于生成歸因圖（attribution graphs），其作用類似于大腦的神經網絡示意圖，通過

Claude 團隊來搞開源了 ——推出“電路追蹤”（circuit tracing）工具，可以幫大伙兒讀懂大模型的“腦回路”，追蹤其思維過程。

該工具的核心在于生成歸因圖（attribution graphs），其作用類似于大腦的神經網絡示意圖，通過可視化模型內部超節點及其連接關系，呈現 LLM 處理信息的路徑。

研究人員通過干預節點激活值，觀察模型行為變化，從而驗證各節點的功能分工，解碼 LLM 的“決策邏輯”。

官方表示，此次發布的開源庫支持在主流開源權重模型上快速生成歸因圖，而 Neuronpedia 托管的前端界面則進一步允許用戶交互式探索。

總之，研究人員能夠：

通過生成自有歸因圖，在支持的模型上進行電路追蹤；

在交互式前端中可視化、注釋和分享圖表；

通過修改特征值并觀察模型輸出變化來驗證假設。

Anthropic CEO Dario Amodei 表示：

目前，我們對 AI 內部運作的理解遠遠落后于其能力的發展。通過開源這些工具，我們希望讓更廣泛的社區更容易研究語言模型的內部機制。我們期待看到這些工具在理解模型行為方面的應用，以及對工具本身的改進拓展。

目前，該項目開源不到 24 小時，在 GitHub 就已攬獲 400+Star。

在 Reddit、X 上都有不少網友點贊 & 討論。

有網友直呼“DeepSeek 肯定喜歡這個”。

還有網友認為“歸因圖可能成為 LLM 研究的顯微鏡”。

“電路追蹤”食用教程

除了宣布開源外，Anthropic 依據介紹電路追蹤方法的原始論文《On the Biology of a Large Language Model》中多步推理和多語言電路示例，利用該工具深入探究了幾個涉及 Gemma-2-2b 的歸因圖。

一起來看看具體示例和分析。

如果想生成自己的圖，可以在 Neuronpedia 上進行操作，也可以直接在 Colab 中使用這個起始 notebook 進行操作。

兩階推理

先來看一個兩階推理示例。

問題：包含達拉斯的州的首府是？（Fact: The capital of the state containing Dallas is → Austin）

模型必須首先推斷出包含達拉斯的州是得克薩斯州；然后，回答得克薩斯州首府是奧斯汀。

介紹電路追蹤方法的原始論文中表明，模型 Claude 3.5 Haiku 使用以下電路解決了該問題，計算了“包含達拉斯的州”這一中間步驟。

而對 Gemma 2（2B）進行歸因分析表明，它使用以下電路成功完成了 prompt 任務：

該電路結構與 Claude 3.5 Haiku 的類似，存在一個對應“得克薩斯州”的節點，并同時顯示從“達拉斯”到“奧斯汀”的直接路徑以及經過“得克薩斯州”的間接路徑。

歸因圖基于使用 transcoders 來近似多層感知機（MLP）的行為，提出了關于模型行為的假設。

Anthropic 表示，可以通過直接對底層模型進行干預，來驗證他們對模型行為的理解是否正確。

對圖中所示的每個超節點（supernodes）進行干預，首先需要從該圖中獲取超節點。

Anthropic 提供了一個便捷函數，可將電路 URL（及其中存儲的超節點）映射到 Feature 對象列表。每個 Feature 對象是一個 (layer, position, feature_index) 元組。

然后，創建用于解決此任務的電路表示。

首先需定義一些超節點對象（Supernode objects），這些對象將存儲底層 Feature 列表，以及受其因果影響的子超節點。

再初始化一個干預圖（InterventionGraph），用于存儲所有超節點并跟蹤它們的狀態。

另外，還需要獲取模型在此提示下的 logits 和激活值。

設置每個節點的默認激活值（即未進行干預時，原始提示下的激活值），并設定其激活分數，激活分數為節點當前激活值與默認激活值的比值。

由于當前激活值與默認激活值相同，因此每個節點的激活分數均為 100%。

另外還將記錄 top-5 的 logits，然后對圖表進行可視化。

結果顯示電路與在可視化完整圖表時創建的超節點吻合。

現在，通過干預驗證每個超節點是否如假設般發揮作用，每次干預會將節點值設定為原始值的特定倍數。

在介紹電路追蹤方法的原始論文中，關閉“說出一個首府”（Say a capital）Feature 會導致“說出奧斯汀”（Say Austin）超節點關閉，且模型的最高 logits 變為得克薩斯州（Texas）。

若接下來對 Gemma 2（2B）歸因圖進行相同操作，會發生什么？

結果觀察到了完全相同的現象。強行關閉“說出一個首府”超節點后，“說出奧斯汀”節點也隨之關閉，模型的最高 logit 變為了得克薩斯州。

那如果關閉“首府”（capital）超節點會怎樣？

與之前的干預行為類似：關閉“說出一個首府”超節點，但沒有像之前那樣強烈，也部分關閉了“說出奧斯汀”節點。

如果我們關閉“得克薩斯州”超節點會怎樣？

關閉“得克薩斯州”超節點同樣會使“說出奧斯汀”節點失效，導致模型輸出其它州的首府。

如果關閉“州”（state）超節點會怎樣？

關閉“州”超節點效果并不明顯，它對其它超節點的激活狀態幾乎沒有影響，模型的 logits 也幾乎沒有變化。

現在已經通過剔除節點驗證了其行為。

那么，能否注入完全不同的節點并驗證其是否產生預期效果？

以 prompt“包含奧克蘭的州的首府是（ Fact: The capital of the state containing Oakland is → Sacramento）”中的電路為例，從該圖中提取兩個超節點“加利福尼亞州”（California）和“說出薩克拉門托”（Say Sacramento），并將其添加到干預圖中。

然后，進行干預操作：關閉“得克薩斯州”超節點，并激活“加利福尼亞州”超節點。

這樣做導致“說出奧斯汀”節點完全關閉，而“說出薩克拉門托”節點開始激活，模型最高輸出現在也變為薩克拉門托。

還可以將州替換為國家進行類似實驗。以 Prompt“包含上海的國家的首都是（Fact: The capital of the country containing Shanghai is → Beijing）”的電路為例，執行與之前完全相同的操作：

禁用“得克薩斯州”超節點，并激活“中國”超節點。這次雖然沒有“說出北京”節點，但這種干預的效果應該會在 logits 中顯現。

結果同樣有效，北京現在成為模型最可能的輸出。

那總是會有效嗎？

再用 Prompt“包含溫哥華的地區的首府是（Fact: the capital of the territory containing Vancouver is → Victoria）”的電路來試試。

在這種情況下，干預效果并不顯著。

模型的輸出看起來與僅剔除“得克薩斯州”時的結果類似，這表明“不列顛哥倫比亞省”（British Columbia）節點的加入幾乎沒有產生作用。

多語言電路

接下來 Anthropic 還探討了原論文中研究的多語言電路。

具體而言，將考察三個電路，分別對應三種語言的同一句子：

關于 Claude 3.5 Haiku 的研究展示了一個共享的多語言電路：

與 Haiku 的電路不同，Gemma 2（2B）的電路從本質上完全具備多語言特性。

模型中并不存在獨立的“Say big”或“Say grand”超節點來驅動其用特定語言輸出對應答案。相反，所有電路均采用“Say big”Feature，若答案為非英語，則會結合“French”或“Chinese”Feature 共同作用。

接下來，通過對這些電路進行干預實驗來展開研究。

首先，如前所述創建超節點對象（Supernode objects）：

然后，獲取這些節點的激活值，對其進行初始化，并生成可視化圖表。

現在進行第一次干預操作：關閉“French”超節點。

在關閉“French”超節點后，模型輸出變成了英文。

值得注意的是，這對“Say big”超節點僅產生輕微影響，二者的作用似乎相互獨立。

再嘗試將語言切換為另一種：關閉“French”超節點，并激活“Chinese”超節點。

正如預期，干預后的模型輸出與中文示例的原始輸出一致。

那如果將“small”Feature 替換為“big”會怎樣？

將“small”超節點替換為“big”超節點后，導致“說出 big”超節點關閉，同時一個新的“Say small”超節點被激活。

模型的輸出在法語中變為“petit”（即“small”）。

接下來是最后一項干預，能否將“opposite”（反義詞）超節點替換為“synonym”（同義詞），以獲取同義輸出？

雖然該模型并不擅長處理同義詞：當輸入“Un synonyme de ‘petit’ est ‘”（“petit”的同義詞是“”）時，模型會重復輸出“petit”，而非其它同義詞。

但是，仍可觀察此干預是否會復現該行為。

不過最終這項干預并未奏效。盡管“Say small”超節點被激活，但“Say big”也保持激活狀態，模型的輸出并未改變。

Anthropic 團隊認為這并不意外，如果觀察該任務的原始電路，會發現“opposite”（反義詞）超節點與輸出端僅存在弱連接。因此，盡管它本應發揮作用，但其因果效應相當有限。

更多細節大伙兒可自行查閱。

另外作為啟發，Anthropic 在 demo notebook 和 Neuronpedia 上提供了尚未分析的額外歸因圖，感興趣的童鞋可以親自上手研究研究。

GitHub 鏈接：

https://github.com/safety-research/circuit-tracer?tab=readme-ov-file

參考鏈接：

[1]https://x.com/anthropicai/status/1928119229384970244?s=46

[2]https://www.anthropic.com/research/open-source-circuit-tracing

本文來自微信公眾號：量子位（ID：QbitAI），作者：西風，原標題《Claude 團隊打開大模型「腦回路」，開源 LLM 思維可視化工具來了》

本文鏈接：http://www.www897cc.com/showinfo-45-13328-0.htmlClaude 團隊打開大模型“腦回路”，推出開源 LLM 思維可視化工具

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌布林：恐嚇AI模型竟能提升性能？顛覆傳統認知！

下一篇：谷歌悄然推出“AI Edge Gallery”應用：可在手機本地運行 AI 模型

標簽：

熱門焦點

AI網紅能年賺百萬，普通人的新機會來了？

來源｜運營研究社作者 | 張知白編輯 | 楊佩汶設計 | 晏談夢潔2023 年，數字人成為了當紅的“流量話題”和“商業機會"。不管是 AI 孫燕姿走紅網絡，還是 AI 數字
雷克薩斯高管，“受賄”5000萬？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區一個高管受賄10億日元（約合人民幣5000
AI大模型“戰火”燒到了教育領域

作者：劉曠自2023年開年以來，AI大模型這股風是越吹越猛烈了。隨著ChatGPT的出圈爆火，再度掀起了一波AI熱浪，無論是在國內還是國外都有不少企業宣布入局或者跟進AI大模型領域。與
元宇宙帶來沉浸式智能登錄？你學會了嗎？

備受資本市場寵愛的元宇宙概念，正掀起一番番波瀾。元宇宙作為虛實相融的互聯網應用和社會形態，與沉浸式體驗緊密相關。多重路徑，打造無感知沉浸式智能登錄《設計
超跑與NFT的首次結合，蘭博基尼能否破局？

蘭博基尼公司近日稱即將推出它的首款NFT，并且將加速進軍區塊鏈領域。這家聞名遐邇的意大利汽車廠商野心勃勃地將目光投向混合動力和電動跑車，并宣布將拍賣與瑞士
“元宇宙第一股”Roblox首份年報未達預期，摩根大通成為首家進入元宇宙的銀行

今日《元宇宙新鮮事》有：“元宇宙第一股”Roblox首份年報未達預期致盤后股價暴跌15.28%；YouTube宣布進軍區塊鏈和元宇宙；摩根大通成為首家進入元宇宙的銀行。【中
國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

作者：楊鄭君2月16日，迅雷鏈企業數字藏品服務平臺正式上線，繼阿里、騰訊、京東、百度、網易等之后，又一家互聯網企業正式加入到火熱的數字藏品平臺的競爭中。除互聯
虛擬數字人：元宇宙的主角破圈而來

虛擬數字人市場逐步進入成熟期，商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破，制
FTX 加密貨幣交易所開始向游戲公司提供加密服務

據媒體報道，業內領先的加密貨幣交易所FTX宣布將涉足游戲領域。該公司表示，計劃推出自己的游戲部門作為中介，專注于為傳統游戲公司提供加密相關服務。此舉將有助于

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Claude 團隊打開大模型“腦回路”，推出開源 LLM 思維可視化工具

AI網紅能年賺百萬，普通人的新機會來了？

雷克薩斯高管，“受賄”5000萬？

AI大模型“戰火”燒到了教育領域

元宇宙帶來沉浸式智能登錄？你學會了嗎？

超跑與NFT的首次結合，蘭博基尼能否破局？

“元宇宙第一股”Roblox首份年報未達預期，摩根大通成為首家進入元宇宙的銀行

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

虛擬數字人：元宇宙的主角破圈而來

FTX 加密貨幣交易所開始向游戲公司提供加密服務

最新推薦

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

星展銀行(DBS)計劃推出零售數字資產交易服務

虛擬數字人：元宇宙的主角破圈而來

從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

NFT：新騙局的狩獵場

爆發在即的Layer2賽道百花齊放，誰將是領跑者？

猜你喜歡

熱門推薦

相關資訊