日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

UC 伯克利發現 GPT-4 驚人缺陷:兒童從經驗中學習因果,LLM 卻不行

來源: 責編: 時間:2023-12-21 17:09:17 292觀看
導讀 新智元報道編輯:拉燕【新智元導讀】最近,UC 伯克利的一項研究揭示了 LLM 和小孩子們在認知上的一項重要差別 —— 創造新的因果結構的能力。大家有沒有想過一個問題,LLM 和小朋友們,有什么差別?你可能會說,LLM 有那

kaE28資訊網——每日最新資訊28at.com

新智元報道kaE28資訊網——每日最新資訊28at.com

編輯:拉燕kaE28資訊網——每日最新資訊28at.com

【新智元導讀】最近,UC 伯克利的一項研究揭示了 LLM 和小孩子們在認知上的一項重要差別 —— 創造新的因果結構的能力。kaE28資訊網——每日最新資訊28at.com

大家有沒有想過一個問題,LLM 和小朋友們,有什么差別?kaE28資訊網——每日最新資訊28at.com

你可能會說,LLM 有那么多訓練數據集,經過了那么多次微調,還不全方位秒殺小朋友們?kaE28資訊網——每日最新資訊28at.com

但是,最近 UC 伯克利的一篇論文卻顯示,LLM 和孩童相比,欠缺了一項很重要的能力。kaE28資訊網——每日最新資訊28at.com

那就是 —— 從經驗中學習因果結構的能力。kaE28資訊網——每日最新資訊28at.com

當然了,研究人員們也并不是一點兒招沒有,RLHF 在某種程度上可以解決這個問題。但是解決的邏輯,卻和孩子們學習完全不同。kaE28資訊網——每日最新資訊28at.com

LeCun 也是轉發了這篇研究,并配文「那些孩子們可以,LLM 卻做不到的事。」kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

LLM 究竟擬人嗎

首先,我們知道,關于大型語言模型和語言與視覺模型的討論,主要集中在這些模型是否是智能體上。kaE28資訊網——每日最新資訊28at.com

而 UC 伯克利的研究人員則提出了一個不同的觀點。kaE28資訊網——每日最新資訊28at.com

他們認為,這些 AI 模型是高效和強大的模仿引擎。kaE28資訊網——每日最新資訊28at.com

接著他們通過測試這些 AI 模型是否可以發現新的工具和新穎的因果結構,以及將它們接到指令的反應與人類兒童進行對比,來探討 AI 模型能在模仿和創新這方面,啟發研究人員什么。kaE28資訊網——每日最新資訊28at.com

不少人表示,這些 LLM 不就是一個又一個智能體嘛。圖片、文本,什么都能生成,這多聰明。kaE28資訊網——每日最新資訊28at.com

甚至,他們還會在口語表達中暗示了這種擬人化的夸贊 —— 一「個」AI,就好像咱們說一個人一樣。kaE28資訊網——每日最新資訊28at.com

UC 伯克利的研究人員則認為,這么想就錯了。kaE28資訊網——每日最新資訊28at.com

LLM 就像歷史中我們見過的那些技術,比如書寫、印刷、圖書館、互聯網,甚至語言本身。kaE28資訊網——每日最新資訊28at.com

大型語言和視覺模型提供了一種新的方法,讓我們能輕松有效地訪問其他人編寫的大量文本和其他人生成的圖像。kaE28資訊網——每日最新資訊28at.com

換句話說,這些 AI 系統為文化生產和演化提供了一種新的手段,允許信息在不同群體之間高效傳遞。它們匯總了以前由人類代理生成的大量信息,并從中提取模式。kaE28資訊網——每日最新資訊28at.com

所以,并不擬人。kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

這與介入外部世界,并生成關于它的信息的感知和行動系統形成對比。換言之,人類的模式。kaE28資訊網——每日最新資訊28at.com

這里要注意,這種對比不僅限于感知和行動系統本身,還包括科學或是直觀理論中所體現的因果關系。它們與外部世界有關,并對該世界進行預測并影響該世界上的行動。kaE28資訊網——每日最新資訊28at.com

同時,后期來自該外部世界所獲得的新證據可以從根本上修改以往的因果關系。kaE28資訊網——每日最新資訊28at.com

當然,這些尋求真理的認識過程也是一些 AI 系統的基礎。例如,強化學習系統,特別是基于模型的系統,可以被理解為在世界上采取行動以解決類似于逆問題的系統。kaE28資訊網——每日最新資訊28at.com

它們積累數據來構建世界的模型,從而實現廣泛和新穎的泛化。這一點在機器人領域尤其突出,這些系統與外部世界接觸,改變自身的模型,允許新的行動和泛化,雖說程度有限。kaE28資訊網——每日最新資訊28at.com

類似地,一些 AI 方法也已經把因果推斷和理論形成整合到了其學習機制中,以設計更像人類的系統。kaE28資訊網——每日最新資訊28at.com

然而,這些系統與我們往常熟悉的,依賴于大量現有數據的、相對簡單的、大型語言和視覺模型有顯著不同。kaE28資訊網——每日最新資訊28at.com

尋求真理的認識過程與能夠忠實傳遞表示(representation)的過程這兩件事一直會是相抗的,無論這些表示與外部世界之間的關系如何。這種傳遞對于語言學習和社會協調等能力至關重要。kaE28資訊網——每日最新資訊28at.com

目前,研究人員有大量證據表明,這種忠實傳遞的機制在早期發展中已經存在,并在人類認知和文化中發揮著特別重要的作用。kaE28資訊網——每日最新資訊28at.com

然而,這些機制也可能與尋求真理的因果推斷和理論形成機制產生一些微妙的關系,原因可能有好有壞。kaE28資訊網——每日最新資訊28at.com

比方說,在「過度模仿」(overimitation)的現象中,人類兒童(和成年人)會在復雜的行動序列中重現出現過的所有細節,即使這些細節對該行動的結果并不具有因果關系。kaE28資訊網——每日最新資訊28at.com

過度模仿可能會增加復雜行動傳遞的忠實度和效率。但是,這也意味著該傳遞并不根植于受環境變化所改變的因果理解。同樣也有證據表明,兒童會在未經批判性思考的情況下接受別人對外部世界的看法,當且僅當又遇到另一個人所有的不同看法時,兒童才會改變原有的看法。kaE28資訊網——每日最新資訊28at.com

這點還是蠻有共鳴的,打個比方就是,孩子們起初是一張白紙,畫什么是什么,有新的認知才會覆蓋原有的色彩。kaE28資訊網——每日最新資訊28at.com

研究人員認為,大型語言模型有力的促進了這種類型的傳遞,方式則是總結,和從現有文本中進行泛化。kaE28資訊網——每日最新資訊28at.com

然而,它們的訓練過程中,或是目標函數中,沒有設計任何有關履行感知、因果推斷或理論形成等尋求真理的系統的認識功能。kaE28資訊網——每日最新資訊28at.com

即使是最先進的 LLM,它們的輸出預測概率也并不會區分認識不確定性(epistemic uncertainty)(這點實際上與知識的缺乏有關,是可以通過更多的訓練數據來解決的),和偶然不確定性(aleatoric uncertainty)。kaE28資訊網——每日最新資訊28at.com

這就帶來了「幻覺」的問題。kaE28資訊網——每日最新資訊28at.com

這種傳達和客觀真理的對比,與在人類文化演化中的模仿 / 創新的對比密切相關。文化的演化取決于這兩種不同認知機制之間的平衡,而模仿允許知識或技能從一個人傳遞到另一個人;創新則是通過與不斷變化的世界接觸產生新的知識或技能。kaE28資訊網——每日最新資訊28at.com

簡而言之,模仿意味著每個個體不必創新 —— 他們可以直接利用其他人的認知。但如果某些個體沒有創新的能力,光靠模仿本身將毫無用處。這也就是說,正是創新和模仿的結合才能實現文化和技術的進步。kaE28資訊網——每日最新資訊28at.com

當然,模仿和傳輸也可能涉及某些種類的泛化和新穎性。LLM 也會產生類似的泛化,有時會從已知的行動中泛化,來產生某種創新。kaE28資訊網——每日最新資訊28at.com

然而,想要輸出足以應對新問題和新環境的創新,則需要 LLM 超越獲取的信息,和從這些給定信息中推理出的東西。這些推理可能從現有的因果模型出發,生成與之前觀察到的因果非常不同的新因果,或者可能激發對外部世界的新的探索。kaE28資訊網——每日最新資訊28at.com

從人工智能的角度來看,模仿涉及一種插值泛化,即在已知的范圍內,技能和知識在各種背景下得以利用、模擬和分享。kaE28資訊網——每日最新資訊28at.com

而另一方面,創新則反映了一種更為外推性的,或超分布(out-of-distribution)的泛化。kaE28資訊網——每日最新資訊28at.com

不過在任何給定情況下,想要確定哪種認知機制產生了特定類型的表示或行為、知識或技能,這件事其實并不容易。kaE28資訊網——每日最新資訊28at.com

如果只受到內部語言統計數據培訓的 LLM 可以復制特定的能力,例如在回應 prompt 時生成語法正確的文本,這表明這類能力可以通過模仿來發展。但如果不行,那就意味著這些能力可能需要創新,即從外部世界中提取知識。kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

因此,LLM 和大型的視覺模型為研究人員提供了一個機會,可以發現哪種能力需要模仿,哪種能力又需要創新。這也是認知科學長期以來的一個問題。kaE28資訊網——每日最新資訊28at.com

LLM V.S 兒童

研究人員將受過大量文本數據或文本和圖像數據訓練的 LLM 模型的性能與兒童的性能(這么說好奇怪,哈哈)進行了對比。kaE28資訊網——每日最新資訊28at.com

研究人員發現,LLM 的模仿可能在重要方面與兒童的模仿行為有不同。kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

對兒童而言,現有的文獻中存在很多關于我們童年時期的模仿的爭論,究竟有多少是忠實的文化傳遞(比如:過度模仿)以及有多少是由更廣泛的尋求真理的過程所驅使的,比如理解他人的目標和意圖。kaE28資訊網——每日最新資訊28at.com

而 LLM 究竟能否創新,取決于能否創新工具(new tools)。kaE28資訊網——每日最新資訊28at.com

人可以發現并創造全新的各種工具,因此工具是解決模仿與創新之間的平衡問題的最佳例證之一。而 AI 和機器人領域的技術,如「行為克隆」,使用了類似的方法。kaE28資訊網——每日最新資訊28at.com

然而,需要再次強調的是,模仿,和以插值方式使用現有工具的能力,取決于以外推方式發現新工具的平行能力。kaE28資訊網——每日最新資訊28at.com

工具創新是人類生活不可或缺的一部分,并且在各種非人類動物中也觀察到,因此工具創新通常被認為是生物系統智力的一個顯著標志。kaE28資訊網——每日最新資訊28at.com

然后,工具使用也是理解 LLM 和兒童的模仿和創新的一個重要比較點。kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

LLM 和人類都可以對對象的信息進行編碼,但它們在工具模仿與工具創新方面的能力可能會有所不同。研究人員的預測這些模型可能很好地捕捉到所熟悉的工具使用方法(比如錘子)。kaE28資訊網——每日最新資訊28at.com

然而,這些系統在涉及不常見、或是新穎的工具時就會很難產生正確的反饋,原因就在于后者依賴于發現和使用新的因果聯系、功能類比和適用性。kaE28資訊網——每日最新資訊28at.com

然而,兒童是否就能夠自行進行這種創新呢?需不需要明確的指導和經驗?kaE28資訊網——每日最新資訊28at.com

事實上是,從零開始構建一個新工具,對于兒童來說也是一項困難的任務。不過兒童可能會更容易地識別日常物品中的新功能,并在沒有典型工具的情況下選擇適當的替代品來解決各種任務。kaE28資訊網——每日最新資訊28at.com

在研究中,研究人員研究了人類兒童和成年人是否能夠使用熟悉的物品,以新的方式來實現特定的結果,并將結果與大型深度學習模型(例如 GPT-3 和 GPT-4)的輸出進行了比較。kaE28資訊網——每日最新資訊28at.com

該研究由兩個組成部分:一個模仿部分(根據已知對象的現有知識進行插值判斷)和一個創新部分(關于可以使用對象的新方式的外推性判斷)。kaE28資訊網——每日最新資訊28at.com

在創新部分,研究人員提出了一系列問題,需要在沒有典型工具的情況下執行目標(例如,在沒有圓規的情況下畫一個圓)。kaE28資訊網——每日最新資訊28at.com

然后,研究人員為參與者提供了替代物品選擇:kaE28資訊網——每日最新資訊28at.com

(a)與典型工具更相似但與上下文無關的物品(比方說一把尺子)。kaE28資訊網——每日最新資訊28at.com

(b)在表面上看起來不同但具有與典型工具相同的適用性和因果屬性的物品(例如,底部是圓形的一個茶壺)。kaE28資訊網——每日最新資訊28at.com

(c)完全無關的物品。kaE28資訊網——每日最新資訊28at.com

在研究的模仿部分,研究人員提供了相同的物品集合,但要求參與者選擇哪種物品選項與典型工具最匹配。kaE28資訊網——每日最新資訊28at.com

研究人員發現,3 至 7 歲的兒童和成年人(平均年齡 = 27.80 歲,標準差 = 5.54)在被問到哪些物品應該放在一起時,可以識別對象之間的常見的表面關系。kaE28資訊網——每日最新資訊28at.com

同時,他們也可以發現日常物品的新功能,以解決新穎的問題,因此也會選擇表面上不相關,但功能相關的物品。kaE28資訊網——每日最新資訊28at.com

接下來,使用與測試中人類參與者的文本輸入完全相同的設置,研究人員想看看 OpenAI 的 GPT-4、Gpt-3.5-turbo 和 text-davinci-003 模型,以及 Anthropic 的 Claude,Google 的 FLAN-T5(XXL)表現如何。kaE28資訊網——每日最新資訊28at.com

由于研究人員注意到,這些模型會根據選項的順序,改變輸出結果,因此他們為每個場景跑了模型六次,全面考慮了由三個選項生成的六種不同順序。kaE28資訊網——每日最新資訊28at.com

研究人員將模型輸出設置為確定性,溫度為 0,保持所有其他參數的默認值。然后,研究人員對六次重復試驗的得分(選擇相關對象為 1,選擇其他響應為 0)進行了平均。kaE28資訊網——每日最新資訊28at.com

就像預測的那樣,研究人員發現這些 LLM 幾乎與人類一樣能夠識別對象之間的表面共性。kaE28資訊網——每日最新資訊28at.com

他們對物體之間的表面關聯呈現出敏感性,并在模仿任務中表現出色(GPT-4 平均 83.3%,gpt-3.5-turbo 平均 73.1%,davinci 平均 59.9%,Claude 平均 69.9%,Flan 平均 74.8%)。kaE28資訊網——每日最新資訊28at.com

然而,當他們被要求選擇一種新功能工具來解決問題時,他們不如人類能力強(GPT-4 平均 75.9%,gpt-3.5-turbo 平均 58.9%,davinci 平均 8.87%,Claude 平均 58.16%,Flan 平均 45.7%)。kaE28資訊網——每日最新資訊28at.com

這表明,僅僅從大量語言中學習可能不足以實現工具創新。kaE28資訊網——每日最新資訊28at.com

不過比較可惜的是,有關這項研究的圖表并沒有公開。kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

那么,LLM 是否能夠發現新的因果關系并利用它們來設計新工具呢?我們已經反復提到,發現新工具的能力取決于是否能夠推斷出新的因果關系。kaE28資訊網——每日最新資訊28at.com

大量研究表明,即使是非常年幼的兒童也擅長發現這種關系。kaE28資訊網——每日最新資訊28at.com

因為關于因果結構的信息可以通過模仿和文化傳播傳遞。因果發現是一個不錯的例子,足以說明了一個認知過程是如何解決逆問題并通過感知和行動發現新的真理的。kaE28資訊網——每日最新資訊28at.com

最新版本的 GPT,GPT-4 和 GPT-3.5,通過從人類反饋中進行強化學習進行了微調。kaE28資訊網——每日最新資訊28at.com

這同樣也有問題。從人類反饋中進行強化學習本身可能被認為是一種啟用文化傳播的方法,算是半個作弊吧,LoL。kaE28資訊網——每日最新資訊28at.com

kaE28資訊網——每日最新資訊28at.com

參考資料:kaE28資訊網——每日最新資訊28at.com

https://twitter.com/ylecun/status/1729265577733275786kaE28資訊網——每日最新資訊28at.com

https://journals.sagepub.com/doi/full/10.1177/17456916231201401kaE28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)kaE28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2988-0.htmlUC 伯克利發現 GPT-4 驚人缺陷:兒童從經驗中學習因果,LLM 卻不行

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 騰訊云推出高性能應用服務 HAI:號稱 10 分鐘開發專屬 AI 應用

下一篇: 硬核科技護航“雪龍號”極地科考,高梵助力中國科考事業獲央視點贊

標簽:
  • 熱門焦點
  • AIGC產品測評TOP25丨誰能搶到下個十年的“船票”?

    Tech星球(微信ID:tech618) 文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創意 2016年,李彥宏站在百度聯盟峰會的講臺上,向所有人宣布:互聯網的下一幕是人工智能。同年,Google 旗下 Dee
  • 關于年度熱詞NFT,除了錢,我們還可以聊點啥?

    每到年底,社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞,你會想到什么?柯林斯詞典將年度熱詞頒給了“NFT”,而其理由是:一個縮寫詞的
  • 完美世界被元宇宙“拒之門外”

    春節期間,游戲是消磨時間最好的方式,完美世界的《幻塔》作為選擇的首要目標,倒不是因為它的吸引力有多大,純粹是廣大網友的吐槽。繼《原神》之后,進擊元宇宙的游戲
  • 2022年6款最佳的NFT稀有度查詢工具

    NFT正在風靡全球,但擁有一個你自認為看起來很酷的 NFT 是不夠的,因為它還應該是稀有的,稀有度會影響每個 NFT 的價值。因此,如果您打算投資 NFT,則需要使用 NFT 稀
  • 借VR產業東風,江西搶灘布局“元宇宙”

    自2016年起就在VR上傾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口,使人們可以在數字空間和物理空間自由穿梭。自2016年起
  • 重溫 1602 年:DAO 是新的企業范式嗎?

    作者:Andrew Singer“ 將你的選票委托給行業有能力的專家,將使所有者在這些公司的管理中擁有更強大、更清晰的話語權 ?!?602 年,荷蘭東印度公司成立,許多人認為
  • NFT藝術家Hayley Rincon 專訪:我的迷幻數字藝術之路

    Hayley Rincon是一位令人印象深刻才華橫溢的創作者,她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品,和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
  • NFT領域,我們是否應該遵守版權法

    NFTs中最有爭議的因素之一是你是否真的 "擁有 "你所購買的藝術品。除此之外,圍繞著NFT行業內的版權和知識產權盜竊的問題也同樣重要,因為人們很容易誤解這些事情
  • 為什么元宇宙將永遠改變體育和你的生活?

    自從Facebook更名為Meta以來,Metaverse這個詞已經被大家所熟知。但是當Metaverse仍然被許多人視為一個虛擬的平行世界時,一些項目已經顯示出Metaverse將如何永遠
Top 主站蜘蛛池模板: 麟游县| 五莲县| 冷水江市| 陆河县| 滨州市| 桂东县| 广宁县| 衡南县| 双鸭山市| 扎赉特旗| 通州区| 靖安县| 玛沁县| 望都县| 玉环县| 张家口市| 衡阳市| 中牟县| 鄂州市| 晴隆县| 江川县| 易门县| 滨州市| 西青区| 昌黎县| 枣强县| 连州市| 冀州市| 惠州市| 新绛县| 内黄县| 巴楚县| 太康县| 漯河市| 同江市| 凤翔县| 广宗县| 东乡县| 大冶市| 莒南县| 鱼台县|