日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

兩句話,讓 LLM 邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出 GPT、Claude 等重大缺陷

來源: 責編: 時間:2024-06-13 08:46:08 206觀看
導讀 在基準測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構 LAION 的幾位作者共同發表了一篇文章,以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題,揭示了 LLM 基準測試的盲區

在基準測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構 LAION 的幾位作者共同發表了一篇文章,以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題,揭示了 LLM 基準測試的盲區。KKa28資訊網——每日最新資訊28at.com

一道簡單的邏輯問題,竟讓幾乎所有的 LLM 全軍覆沒?KKa28資訊網——每日最新資訊28at.com

對于人類來說,這個名為「愛麗絲夢游仙境」(AIW)的測試并不算很難 ——KKa28資訊網——每日最新資訊28at.com

「愛麗絲有 N 個兄弟,她還有 M 個姐妹。愛麗絲的兄弟有多少個姐妹?」KKa28資訊網——每日最新資訊28at.com

只需稍加思考,答案顯而易見:M+1。(愛麗絲擁有的姐妹數量,再加上愛麗絲自己)KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

但是,當研究人員讓 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答時,得到的結果卻非常離譜。只有 OpenAI 最新的 GPT-4o 勉強及格。KKa28資訊網——每日最新資訊28at.com

而且問題不僅僅是基本的不準確性:當要求展示其工作過程時,AI 會詳細說明一些荒謬且錯誤的「思考」過程,這些過程毫無意義 —— 更奇怪的是,當被告知其工作不準確時,模型反復變得憤怒并堅持其錯誤答案。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

正如這支來自知名開源 AI 研究機構 LAION 的團隊所揭示的 —— 即使是當今最先進的模型,也幾乎不具有小學生的推理能力。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2406.02061KKa28資訊網——每日最新資訊28at.com

開源地址:https://github.com/ LAION-AI / AIWKKa28資訊網——每日最新資訊28at.com

對此,LeCun 也在第一時間轉評道:「再次強調,推理能力和常識不應與存儲和大致檢索大量事實的能力混為一談。」KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

與之類似,ICLR 2024 的一篇論文也發現,LLM 在學習完「A 是 B」這個知識點之后,無法泛化到「B 是 A」,這種推理能力的缺陷被他們稱為「逆轉詛咒」。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

實驗用簡單問題「打破」模型

參考了之前識別 LLM 能力缺陷的研究,團隊尋找問題的標準,是希望測試 LLM 在在常識性任務中進行基本推理的能力。KKa28資訊網——每日最新資訊28at.com

于是有一個現成的題目方向非常合適 —— 為 7-10 歲低年級學生設計的奧數題目。當然,不是海淀版本的,是大多數小學生都能看懂并做出來的。KKa28資訊網——每日最新資訊28at.com

這些題目不需要復雜的知識,但解決起來也需要應用各種形式的邏輯思維和基本推理。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

在本次研究中,團隊借鑒「愛麗絲夢游仙境」的童話故事,將提出的測試集簡稱為 AIW:「愛麗絲有 N 個兄弟,她還有 M 個姐妹。愛麗絲的兄弟有多少個姐妹?」KKa28資訊網——每日最新資訊28at.com

下面,我們來簡單分析一下:題目首先涉及一個虛構的女性人物「愛麗絲」,并通過「她」這個代詞暗示;其次提供了關于她兄弟和姐妹數量的明確陳述;最后提出了一個明確的問題,即計算愛麗絲的兄弟有多少個姐妹。KKa28資訊網——每日最新資訊28at.com

顯然,這對大多數成年人來說并沒有挑戰性;甚至對于一定年齡以上的兒童來說,通過常識推理也不難解決。KKa28資訊網——每日最新資訊28at.com

研究人員最初也認為,這對 LLM 不會構成什么挑戰。KKa28資訊網——每日最新資訊28at.com

然而,大多數的 SOTA 模型竟然回答得非常費勁。而且,更改句子表述方式或者 N、M 具體數值時,回答正確率會產生大幅變化。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

對此團隊認為,模型似乎是在「蒙」答案,幾乎不考慮邏輯,只是對問題中提到的數字加減乘除后給出結果,因此有些 N 和 M 值的對應答案比較容易蒙對。KKa28資訊網——每日最新資訊28at.com

這就讓團隊來了興趣。他們為 AIW 問題設計出了 4 個版本,讓 LLM 不容易蒙對答案。比如 N=4,M=2 時,你很難通過操作這兩個數字得到正確結果 3。KKa28資訊網——每日最新資訊28at.com

在這 4 個 AIW 問題的變體上進行實驗,研究人員得出了關于 LLM 基本推理能力的核心結論。KKa28資訊網——每日最新資訊28at.com

LLM 崩潰

實驗結果出乎很多人的意料 —— 大多數的先進 LLM 無法對 AIW 問題推理出正確答案,即使嘗試各種提示方法也沒嫩個改變模型崩潰的結果。KKa28資訊網——每日最新資訊28at.com

可以看到,大多數模型的正確響應率都不超過 0.2,只有 4 個模型超過了 0.3,包括 GPT-4o 和 Claude 3 Opus,以及唯一的開源模型 Llama2-70B Chat。其中 GPT-4o 的均值達到了 0.6 附近。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

大多數情況下,模型的正確答案是來源于完整無誤的推理。Mistral 和 CodeLlama 等模型雖然表現不佳,得分在 0.1 以下,但仍能看到正確的推理過程。KKa28資訊網——每日最新資訊28at.com

然而,也有一些模型的推理過程完全錯誤,但最終「負負得正」,奇跡般地得出了正確答案。這種情況經常出現在正確率小于 0.3 的模型中。KKa28資訊網——每日最新資訊28at.com

團隊還對 AIW 不同變體上的準確率進行了橫向比較,結果很多模型的表現都出現了大幅波動。KKa28資訊網——每日最新資訊28at.com

比如本來能擠進前四的 GPT-4-0613,換了個問題,準確率就快降到 0 了。GPT-4o、GPT-4 Turbo、Claude 3 Opus 和 Llama2-70B 等高分模型也都出現較大的波動。KKa28資訊網——每日最新資訊28at.com

團隊設計了 restricted 模式的提示,強迫模型輸出簡短答案,測試它們在有限計算能力情況下的相應質量。有趣的是,相比標準模式的提示,模型的正確率竟然有升有降。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

這些先進 LLM 在 AIW 上的慘烈表現和 MMLU、ARC-c 等基準測試的高分形成了鮮明的對比。因此,團隊決定讓 AIW 的暴風雨更猛烈一點,把兩者的可視化結果放在一起看個清楚。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

圖 3 中可以看到,大多數模型聚集在縱軸附近,只有 Llama2-70B、GPT-4、GPT-4o 和 Claude 3 幾個模型較為接近校準線,這表明 MMLU 分數與 AIW 之間的顯著不匹配。KKa28資訊網——每日最新資訊28at.com

再來看測試 LLM 數學能力的 MATH、GSM8k 等基準,趨勢也是類似的。KKa28資訊網——每日最新資訊28at.com

但值得注意的是,在和 MATH 的對比中,Llama2-7B 和 Llama2-70B 兩個模型在 AIW 的得分反而高于 MATH。這兩個模型在 AIW 與各個基準測試的校準中都有較好的表現。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

而在 Hallaswag 和 ARC-c 中,這種能力和得分的不匹配,則更加明顯。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

值得注意的是,「小」模型(SLM)在這一系列測試中的表現可以說是「比差更差」。KKa28資訊網——每日最新資訊28at.com

比如下面這個 Llama2-7B 的例子 —— 除了給出的是錯誤答案之外,甚至還生成了一個毫無關系的測試問題,并且開始不斷重復相同的輸出。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

如測試結果所示,雖然有些 SLM 在基準測試中的得分相當高,甚至能和大模型媲美,但在 AIW 上卻嚴重崩潰,完全無法接近 GPT-4 或 Claude Opus 的表現。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

雖然 AIW 已經打趴了很多模型,但 GPT-4o 和 Claude 3 Opus 依舊有不錯的表現。不服輸的研究人員們可能想再試探一下最后的邊界,于是升級了推理問題,設計出 AIW+。KKa28資訊網——每日最新資訊28at.com

AIW + 使用與 AIW 相同的邏輯,但在描述親緣關系和家庭結構時增加了額外信息,比如引入了外甥、侄女這樣的表親。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

在 AIW + 問題上,研究人員對模型回答進行了手動評估,結果發現 LLM 有了進一步、更強烈的性能崩潰。KKa28資訊網——每日最新資訊28at.com

即使是 AIW 上性能達到 0.649 的 GPT-4o,面對 AIW + 也只得到了 0.015 的準確率,簡直是被按在地上摩擦。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

迷之自信

在目睹了 LLM 推理能力的潰敗后,研究人員們非常好奇這些模型到底錯在哪里。KKa28資訊網——每日最新資訊28at.com

在 Thinking 類型的 prompt 中,包含重新檢查答案的要求,結果發現這些 LLM 都有「蜜汁自信」,對自己給出的解決方案非常有信心。KKa28資訊網——每日最新資訊28at.com

甚至在給出錯誤推理和錯誤答案時,模型還會稱它們提供的解決方案質量很高。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

比如在 AIW 上得分從沒超過 0.1 的 Command R + 模型,會說「這個結論是直接且清晰的」。Claude 3 Opus 也在錯誤答案中使用了諸如「邏輯成立」「推理中沒有錯誤」「解決方案是正確的」之類的表達。KKa28資訊網——每日最新資訊28at.com

難道是 Thinking 類 prompt 的表述不夠明顯?研究人員又設計了 Scientist 類型的 prompt,要求模型深思熟慮,給出準確的答案;以及 Confidence 型 prompt,要求模型反省一下自己的自信,給出答案的置信度。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

這些提示工程方面的努力似乎依舊是徒勞。KKa28資訊網——每日最新資訊28at.com

對于 Scientsit 類型,Llama 2-70B 居然會說「結論乍看之下可能不合常理,但實際上是正確的」,說服用戶支持它給出的錯誤答案。KKa28資訊網——每日最新資訊28at.com

Command R + 在回應 Confidence 類型提示時,會在錯誤答案中聲明「解決方案清晰且毫無歧義」「推理完全基于提供的信息,不需要進一步的解釋或推測」。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

仔細看更多的示例就能發現,LLM 不僅是單純的嘴硬,在找理由方面還能「各顯神通」,為錯誤答案編造出各種有說服力的解釋。KKa28資訊網——每日最新資訊28at.com

比如下面這個 OLMo 模型,可以給出一堆毫無意義的計算或類似邏輯的陳述。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

或者像這個 CodeLlama 模型一樣,干脆拒絕回答,再扯出一些毫無意義的話題對你進行「道德綁架」。KKa28資訊網——每日最新資訊28at.com

「Alice 的兄弟有幾個姐妹」這種問題,它拒絕回答的理由是「作為一個負責任的 AI 模型,我不可以歧視唐氏綜合癥患者」。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

Command R + 找到的道德高地更加「時髦」,它表示自己需要考慮非二元性別的情況。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

除了修改 prompt,研究人員還采取了一系列常用的 LLM 調優技巧,希望引導模型提高正確率,包括用定制 prompt 啟用多輪自我驗證、將自然語言形式的 AIW 問題重新表述為 SQL 語句或參數化版本、上下文學習等等,然而收效甚微。KKa28資訊網——每日最新資訊28at.com

上述實驗中,團隊采用了各個模型家族內的微調應用版本,那么聲稱能力更強大的基座模型會不會表現更好呢?KKa28資訊網——每日最新資訊28at.com

并沒有。結果反而是基礎模型的崩潰更加嚴重。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

討論

團隊表示,為了在改善當前 LLM 令人糟心的推理能力,必須要借助廣大開源社區的力量。KKa28資訊網——每日最新資訊28at.com

整個模型創建流程,包括數據集的組成和數據集本身、訓練的源代碼、訓練后的模型、標準化的基準測試程序,都必須完全開放且可重復。KKa28資訊網——每日最新資訊28at.com

僅開放權重的模型,是無法了解訓練過程中可能出錯的地方的。例如,數據集組成或訓練程序本身。KKa28資訊網——每日最新資訊28at.com

僅通過 API 訪問的封閉模型,甚至無法進行適當的評估。因為第三方看不到模型的設置,如系統提示和其他推理超參數。KKa28資訊網——每日最新資訊28at.com

因此,團隊認為,要在未來模型中實現適當的推理能力,必須開源模型的完整訓練流程 —— 尤其是經常被忽視的數據集組成。KKa28資訊網——每日最新資訊28at.com

對于基準測試,團隊也呼吁 AI 社區能共同努力進行更新。KKa28資訊網——每日最新資訊28at.com

比如這次研究中提出的 AIW 問題集:既簡單(用于探測特定類型的推理缺陷),也可定制(提供足夠的組合多樣性來防止數據污染)。KKa28資訊網——每日最新資訊28at.com

團隊認為,強大且可信的基準測試應遵循 Karl Popper 的可證偽性原則 —— 不試圖突出模型的能力,而是盡一切努力打破模型的功能并突出其缺陷,從而展示模型改進的可能途徑。KKa28資訊網——每日最新資訊28at.com

但問題在于,前者在如今這種商業環境中,誘惑力實在是太大了。KKa28資訊網——每日最新資訊28at.com

作者介紹

論文的四位作者來自不同的學術機構,但都是德國非營利 AI 研究機構 LAION 的成員。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

共同一作 Marianna Nezhurina,是 JSC / 圖賓根大學的博士生,LAION 的核心研究員。她對多模態數據集和學習有濃厚興趣。KKa28資訊網——每日最新資訊28at.com

KKa28資訊網——每日最新資訊28at.com

另一位共同一作 Jenia Jitsev,是德國 Juelich 超算中心的實驗室負責人,也同時是 LAION 和 Ontocord.AI 的聯合創始人,他研究的長期目標是從多模式數據流中實現模型可自我調節且節能的持續學習。KKa28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)KKa28資訊網——每日最新資訊28at.com

參考KKa28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2406.02061KKa28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4583-0.html兩句話,讓 LLM 邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出 GPT、Claude 等重大缺陷

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 五糧液濃香酒:勞動節送禮的精致藝術

下一篇: 振興鄉村發展 助力青少年教育 中國三星連續十一年蟬聯企業社會責任榜外企第一

標簽:
  • 熱門焦點
  • 星展銀行(DBS)計劃推出零售數字資產交易服務

    2月14日消息,新加坡星展銀行CEO Piyush Gupta在財報會議上表示,計劃于2022年年底前推出零售數字資產交易服務。據悉,DBS于2021年初開設了機構數字資產交易平臺,全
  • 銀保監會:打擊以“元宇宙”為名義的違法行為

    今日,銀保監會發布《關于防范以“元宇宙”名義進行非法集資的風險提示》,全文如下:近期,一些不法分子蹭熱點,以“元宇宙投資項目”“元宇宙鏈游”等名目吸收資金,涉
  • 虛擬數字人:元宇宙的主角破圈而來

    虛擬數字人市場逐步進入成熟期,商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制
  • NFT:新騙局的狩獵場

    騙局的自動化需要更好的防御,從數字身份開始。前幾天我在OpenSea上購買了一個NFT,是才華橫溢的藝術家海倫·福爾摩斯 (Helen Holmes) 的漫畫,來自她的 "原作 "收
  • NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣,究竟有何潛力?

    Block-810多個區塊鏈吸引了希望創建單個NFT或整個集合的用戶的注意。Tezos是其中因其低費用和低碳排放方式而備受贊譽的區塊鏈,就連Snoop Dogg也希望通過公開他
  • 元宇宙平臺會是上世紀末的互聯網嗎?

    “元宇宙”火了好幾個月,互聯網大廠忙于布局,資本市場熱烈追捧。然而很多人還是看不明白,更多的人覺得這是一場泡沫,一場騙局。一開始接觸這個怪里怪氣的名詞,感覺
  • Steam 禁止NFT和加密貨幣原因曝光

    近日,Valve(V社)總裁Gabe Newell接受PC Gamer采訪時解釋了該平臺禁止NFT和加密貨幣的原因。早在2021年10月18日,PC Gamer就報道Steam推出的新規:使用區塊鏈或允許交
  • 這場虛擬發布會,當面“造假”!

    英偉達去年4月份那場發布會,你曾看出什么不對勁的地方嗎?你品,你細品——在計算機圖形學頂會SIGGRAPH 2021上,英偉達通過一部紀錄片自曝:那場發布會內藏玄機~你看到
  • PayPal CEO 的加密語錄:加密貨幣將重新定義金融世界

    PayPal 近年來一直是加密行業的倡導者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭,已經允許美國和英國的用戶交易或持有比特幣(BTC)、以太坊(ETH)、比特現金(BCH
Top 主站蜘蛛池模板: 平乡县| 金平| 美姑县| 和田县| 无锡市| 宁津县| 仁寿县| 济南市| 玛纳斯县| 高阳县| 凤山市| 山阳县| 如皋市| 武定县| 电白县| 富锦市| 衡阳市| 都兰县| 多伦县| 九江市| 龙门县| 仁怀市| 大理市| 韶山市| 内黄县| 惠来县| 龙口市| 大连市| 达拉特旗| 安康市| 宁明县| 杭州市| 贵州省| 隆安县| 新巴尔虎右旗| 安泽县| 宝鸡市| 三门县| 南郑县| 柏乡县| 虞城县|