當前位置：首頁 > 元宇宙 > AI

UC 伯克利發現 GPT-4 驚人缺陷：兒童從經驗中學習因果，LLM 卻不行

來源：責編：時間：2023-12-21 17:09:17 323觀看

導讀新智元報道編輯：拉燕【新智元導讀】最近，UC 伯克利的一項研究揭示了 LLM 和小孩子們在認知上的一項重要差別 —— 創造新的因果結構的能力。大家有沒有想過一個問題，LLM 和小朋友們，有什么差別？你可能會說，LLM 有那

新智元報道

編輯：拉燕

【新智元導讀】最近，UC 伯克利的一項研究揭示了 LLM 和小孩子們在認知上的一項重要差別 —— 創造新的因果結構的能力。

大家有沒有想過一個問題，LLM 和小朋友們，有什么差別？

你可能會說，LLM 有那么多訓練數據集，經過了那么多次微調，還不全方位秒殺小朋友們？

但是，最近 UC 伯克利的一篇論文卻顯示，LLM 和孩童相比，欠缺了一項很重要的能力。

那就是 —— 從經驗中學習因果結構的能力。

當然了，研究人員們也并不是一點兒招沒有，RLHF 在某種程度上可以解決這個問題。但是解決的邏輯，卻和孩子們學習完全不同。

LeCun 也是轉發了這篇研究，并配文「那些孩子們可以，LLM 卻做不到的事。」

LLM 究竟擬人嗎

首先，我們知道，關于大型語言模型和語言與視覺模型的討論，主要集中在這些模型是否是智能體上。

而 UC 伯克利的研究人員則提出了一個不同的觀點。

他們認為，這些 AI 模型是高效和強大的模仿引擎。

接著他們通過測試這些 AI 模型是否可以發現新的工具和新穎的因果結構，以及將它們接到指令的反應與人類兒童進行對比，來探討 AI 模型能在模仿和創新這方面，啟發研究人員什么。

不少人表示，這些 LLM 不就是一個又一個智能體嘛。圖片、文本，什么都能生成，這多聰明。

甚至，他們還會在口語表達中暗示了這種擬人化的夸贊 —— 一「個」AI，就好像咱們說一個人一樣。

UC 伯克利的研究人員則認為，這么想就錯了。

LLM 就像歷史中我們見過的那些技術，比如書寫、印刷、圖書館、互聯網，甚至語言本身。

大型語言和視覺模型提供了一種新的方法，讓我們能輕松有效地訪問其他人編寫的大量文本和其他人生成的圖像。

換句話說，這些 AI 系統為文化生產和演化提供了一種新的手段，允許信息在不同群體之間高效傳遞。它們匯總了以前由人類代理生成的大量信息，并從中提取模式。

所以，并不擬人。

這與介入外部世界，并生成關于它的信息的感知和行動系統形成對比。換言之，人類的模式。

這里要注意，這種對比不僅限于感知和行動系統本身，還包括科學或是直觀理論中所體現的因果關系。它們與外部世界有關，并對該世界進行預測并影響該世界上的行動。

同時，后期來自該外部世界所獲得的新證據可以從根本上修改以往的因果關系。

當然，這些尋求真理的認識過程也是一些 AI 系統的基礎。例如，強化學習系統，特別是基于模型的系統，可以被理解為在世界上采取行動以解決類似于逆問題的系統。

它們積累數據來構建世界的模型，從而實現廣泛和新穎的泛化。這一點在機器人領域尤其突出，這些系統與外部世界接觸，改變自身的模型，允許新的行動和泛化，雖說程度有限。

類似地，一些 AI 方法也已經把因果推斷和理論形成整合到了其學習機制中，以設計更像人類的系統。

然而，這些系統與我們往常熟悉的，依賴于大量現有數據的、相對簡單的、大型語言和視覺模型有顯著不同。

尋求真理的認識過程與能夠忠實傳遞表示（representation）的過程這兩件事一直會是相抗的，無論這些表示與外部世界之間的關系如何。這種傳遞對于語言學習和社會協調等能力至關重要。

目前，研究人員有大量證據表明，這種忠實傳遞的機制在早期發展中已經存在，并在人類認知和文化中發揮著特別重要的作用。

然而，這些機制也可能與尋求真理的因果推斷和理論形成機制產生一些微妙的關系，原因可能有好有壞。

比方說，在「過度模仿」（overimitation）的現象中，人類兒童（和成年人）會在復雜的行動序列中重現出現過的所有細節，即使這些細節對該行動的結果并不具有因果關系。

過度模仿可能會增加復雜行動傳遞的忠實度和效率。但是，這也意味著該傳遞并不根植于受環境變化所改變的因果理解。同樣也有證據表明，兒童會在未經批判性思考的情況下接受別人對外部世界的看法，當且僅當又遇到另一個人所有的不同看法時，兒童才會改變原有的看法。

這點還是蠻有共鳴的，打個比方就是，孩子們起初是一張白紙，畫什么是什么，有新的認知才會覆蓋原有的色彩。

研究人員認為，大型語言模型有力的促進了這種類型的傳遞，方式則是總結，和從現有文本中進行泛化。

然而，它們的訓練過程中，或是目標函數中，沒有設計任何有關履行感知、因果推斷或理論形成等尋求真理的系統的認識功能。

即使是最先進的 LLM，它們的輸出預測概率也并不會區分認識不確定性（epistemic uncertainty）（這點實際上與知識的缺乏有關，是可以通過更多的訓練數據來解決的），和偶然不確定性（aleatoric uncertainty）。

這就帶來了「幻覺」的問題。

這種傳達和客觀真理的對比，與在人類文化演化中的模仿 / 創新的對比密切相關。文化的演化取決于這兩種不同認知機制之間的平衡，而模仿允許知識或技能從一個人傳遞到另一個人；創新則是通過與不斷變化的世界接觸產生新的知識或技能。

簡而言之，模仿意味著每個個體不必創新 —— 他們可以直接利用其他人的認知。但如果某些個體沒有創新的能力，光靠模仿本身將毫無用處。這也就是說，正是創新和模仿的結合才能實現文化和技術的進步。

當然，模仿和傳輸也可能涉及某些種類的泛化和新穎性。LLM 也會產生類似的泛化，有時會從已知的行動中泛化，來產生某種創新。

然而，想要輸出足以應對新問題和新環境的創新，則需要 LLM 超越獲取的信息，和從這些給定信息中推理出的東西。這些推理可能從現有的因果模型出發，生成與之前觀察到的因果非常不同的新因果，或者可能激發對外部世界的新的探索。

從人工智能的角度來看，模仿涉及一種插值泛化，即在已知的范圍內，技能和知識在各種背景下得以利用、模擬和分享。

而另一方面，創新則反映了一種更為外推性的，或超分布（out-of-distribution）的泛化。

不過在任何給定情況下，想要確定哪種認知機制產生了特定類型的表示或行為、知識或技能，這件事其實并不容易。

如果只受到內部語言統計數據培訓的 LLM 可以復制特定的能力，例如在回應 prompt 時生成語法正確的文本，這表明這類能力可以通過模仿來發展。但如果不行，那就意味著這些能力可能需要創新，即從外部世界中提取知識。

因此，LLM 和大型的視覺模型為研究人員提供了一個機會，可以發現哪種能力需要模仿，哪種能力又需要創新。這也是認知科學長期以來的一個問題。

LLM V.S 兒童

研究人員將受過大量文本數據或文本和圖像數據訓練的 LLM 模型的性能與兒童的性能（這么說好奇怪，哈哈）進行了對比。

研究人員發現，LLM 的模仿可能在重要方面與兒童的模仿行為有不同。

對兒童而言，現有的文獻中存在很多關于我們童年時期的模仿的爭論，究竟有多少是忠實的文化傳遞（比如：過度模仿）以及有多少是由更廣泛的尋求真理的過程所驅使的，比如理解他人的目標和意圖。

而 LLM 究竟能否創新，取決于能否創新工具（new tools）。

人可以發現并創造全新的各種工具，因此工具是解決模仿與創新之間的平衡問題的最佳例證之一。而 AI 和機器人領域的技術，如「行為克隆」，使用了類似的方法。

然而，需要再次強調的是，模仿，和以插值方式使用現有工具的能力，取決于以外推方式發現新工具的平行能力。

工具創新是人類生活不可或缺的一部分，并且在各種非人類動物中也觀察到，因此工具創新通常被認為是生物系統智力的一個顯著標志。

然后，工具使用也是理解 LLM 和兒童的模仿和創新的一個重要比較點。

LLM 和人類都可以對對象的信息進行編碼，但它們在工具模仿與工具創新方面的能力可能會有所不同。研究人員的預測這些模型可能很好地捕捉到所熟悉的工具使用方法（比如錘子）。

然而，這些系統在涉及不常見、或是新穎的工具時就會很難產生正確的反饋，原因就在于后者依賴于發現和使用新的因果聯系、功能類比和適用性。

然而，兒童是否就能夠自行進行這種創新呢？需不需要明確的指導和經驗？

事實上是，從零開始構建一個新工具，對于兒童來說也是一項困難的任務。不過兒童可能會更容易地識別日常物品中的新功能，并在沒有典型工具的情況下選擇適當的替代品來解決各種任務。

在研究中，研究人員研究了人類兒童和成年人是否能夠使用熟悉的物品，以新的方式來實現特定的結果，并將結果與大型深度學習模型（例如 GPT-3 和 GPT-4）的輸出進行了比較。

該研究由兩個組成部分：一個模仿部分（根據已知對象的現有知識進行插值判斷）和一個創新部分（關于可以使用對象的新方式的外推性判斷）。

在創新部分，研究人員提出了一系列問題，需要在沒有典型工具的情況下執行目標（例如，在沒有圓規的情況下畫一個圓）。

然后，研究人員為參與者提供了替代物品選擇：

（a）與典型工具更相似但與上下文無關的物品（比方說一把尺子）。

（b）在表面上看起來不同但具有與典型工具相同的適用性和因果屬性的物品（例如，底部是圓形的一個茶壺）。

（c）完全無關的物品。

在研究的模仿部分，研究人員提供了相同的物品集合，但要求參與者選擇哪種物品選項與典型工具最匹配。

研究人員發現，3 至 7 歲的兒童和成年人（平均年齡 = 27.80 歲，標準差 = 5.54）在被問到哪些物品應該放在一起時，可以識別對象之間的常見的表面關系。

同時，他們也可以發現日常物品的新功能，以解決新穎的問題，因此也會選擇表面上不相關，但功能相關的物品。

接下來，使用與測試中人類參與者的文本輸入完全相同的設置，研究人員想看看 OpenAI 的 GPT-4、Gpt-3.5-turbo 和 text-davinci-003 模型，以及 Anthropic 的 Claude，Google 的 FLAN-T5（XXL）表現如何。

由于研究人員注意到，這些模型會根據選項的順序，改變輸出結果，因此他們為每個場景跑了模型六次，全面考慮了由三個選項生成的六種不同順序。

研究人員將模型輸出設置為確定性，溫度為 0，保持所有其他參數的默認值。然后，研究人員對六次重復試驗的得分（選擇相關對象為 1，選擇其他響應為 0）進行了平均。

就像預測的那樣，研究人員發現這些 LLM 幾乎與人類一樣能夠識別對象之間的表面共性。

他們對物體之間的表面關聯呈現出敏感性，并在模仿任務中表現出色（GPT-4 平均 83.3%，gpt-3.5-turbo 平均 73.1%，davinci 平均 59.9%，Claude 平均 69.9%，Flan 平均 74.8%）。

然而，當他們被要求選擇一種新功能工具來解決問題時，他們不如人類能力強（GPT-4 平均 75.9%，gpt-3.5-turbo 平均 58.9%，davinci 平均 8.87%，Claude 平均 58.16%，Flan 平均 45.7%）。

這表明，僅僅從大量語言中學習可能不足以實現工具創新。

不過比較可惜的是，有關這項研究的圖表并沒有公開。

那么，LLM 是否能夠發現新的因果關系并利用它們來設計新工具呢？我們已經反復提到，發現新工具的能力取決于是否能夠推斷出新的因果關系。

大量研究表明，即使是非常年幼的兒童也擅長發現這種關系。

因為關于因果結構的信息可以通過模仿和文化傳播傳遞。因果發現是一個不錯的例子，足以說明了一個認知過程是如何解決逆問題并通過感知和行動發現新的真理的。

最新版本的 GPT，GPT-4 和 GPT-3.5，通過從人類反饋中進行強化學習進行了微調。

這同樣也有問題。從人類反饋中進行強化學習本身可能被認為是一種啟用文化傳播的方法，算是半個作弊吧，LoL。

參考資料：

https://twitter.com/ylecun/status/1729265577733275786

https://journals.sagepub.com/doi/full/10.1177/17456916231201401

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.www897cc.com/showinfo-45-2988-0.htmlUC 伯克利發現 GPT-4 驚人缺陷：兒童從經驗中學習因果，LLM 卻不行

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：騰訊云推出高性能應用服務 HAI：號稱 10 分鐘開發專屬 AI 應用

下一篇：硬核科技護航“雪龍號”極地科考，高梵助力中國科考事業獲央視點贊

標簽：

熱門焦點

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

作者：趙志東蔡佳雯來源：區塊鏈日報該法案采用風險分級的規制路徑，將人工智能系統的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型，并針對不同類型施加了不同
雷克薩斯高管，“受賄”5000萬？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區一個高管受賄10億日元（約合人民幣5000
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
Meta公布AI概念“Builder Bot”；銀保監發布元宇宙相關風險提示

概述自從Meta在2月初公布財報后，其負責元宇宙的核心部門Reality Labs表現不佳，凈虧損超100億美元，隨后股價斷崖式下跌。如今，Meta開始繼續發力元宇宙，想要挽回頹勢，
元宇宙社交時代，華麗歸來的超級QQ秀重構虛擬社交場景

作者:狂人不知不覺間，QQ已經迎來了第23個生日。作為國內社交平臺的起點，QQ可謂是睥睨全網，不僅有龐大的用戶群體，還將虛擬形象及QQ整合成在線虛擬社區，開啟了時髦
韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

財聯社|區塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
2022年去中心化交易所會崛起嗎？

“在某個時候，去中心化衍生品的交易量可能會超過去中心化現貨交易所。”DEX 越來越多地轉向第二層解決方案。“數字化金融市場的概念以及如何沿著以用戶為中心
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

近日，畢馬威正式發布其《初探元宇宙》報告，這也是畢馬威在元宇宙領域發布的首份報告。報告指出，元宇宙在以下十個領域的應用場景尤其值得期待，包括娛樂、社交、零

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

UC 伯克利發現 GPT-4 驚人缺陷：兒童從經驗中學習因果，LLM 卻不行

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

雷克薩斯高管，“受賄”5000萬？

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

Meta公布AI概念“Builder Bot”；銀保監發布元宇宙相關風險提示

元宇宙社交時代，華麗歸來的超級QQ秀重構虛擬社交場景

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

2022年去中心化交易所會崛起嗎？

下一個黃金賽道？NFT的碎片化!

元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

最新推薦

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

數字經濟、數據要素與數字治理

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

元宇宙畫廊體驗報告：有點頭疼。

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

猜你喜歡

熱門推薦

相關資訊