當前位置：首頁 > 元宇宙 > AI

蘋果研究員質疑AI：簡單數(shù)學題一改就出錯？

來源：責編：時間：2024-10-12 16:25:52 81觀看

導讀【ITBEAR】近年來，人工智能（AI）在各個領域取得了顯著進展，尤其是大型語言模型（LLM），它們能夠生成人類水平的文本，甚至在某些任務上超越人類。然而，一項新研究對LLM的推理能力提出了質疑。蘋果公司的一組研究人員發(fā)現(xiàn)，這些模型在

【ITBEAR】近年來，人工智能（AI）在各個領域取得了顯著進展，尤其是大型語言模型（LLM），它們能夠生成人類水平的文本，甚至在某些任務上超越人類。然而，一項新研究對LLM的推理能力提出了質疑。蘋果公司的一組研究人員發(fā)現(xiàn)，這些模型在解決簡單數(shù)學問題時，只要問題稍有變動，就容易出錯，暗示它們可能并不具備真正的邏輯推理能力。

研究人員在一篇名為《理解大型語言模型中數(shù)學推理的局限性》的論文中揭示了LLM在解決數(shù)學問題時易受干擾的現(xiàn)象。他們通過對數(shù)學問題進行微小改動，例如添加無關信息，來測試LLM的推理能力。結果發(fā)現(xiàn)，面對這樣的變化，模型的表現(xiàn)急劇下降。

例如，當給出一個簡單的數(shù)學問題：“奧利弗星期五摘了44個奇異果，星期六摘了58個。星期日，他摘的是星期五的兩倍。他一共摘了多少個？”LLM能正確回答。但若添加無關細節(jié)：“星期日摘的是星期五的兩倍，其中5個比平均小?！盠LM的回答則出錯。GPT-o1-mini的回答是：“...星期日，其中5個奇異果比平均小。我們需要從總數(shù)中減去它們：88 - 5 = 83個?！?span style="display:none">5rv28資訊網——每日最新資訊28at.com

這只是一個例子，研究人員修改了數(shù)百個問題，幾乎所有改動都導致模型回答成功率大幅下降。他們認為，這表明LLM并未真正理解數(shù)學問題，而只是根據(jù)訓練數(shù)據(jù)中的模式進行預測。一旦需要真正的“推理”，如是否計算小的奇異果，它們就會產生不合常理的結果。

這一發(fā)現(xiàn)對AI的發(fā)展具有啟示意義。盡管LLM在許多領域表現(xiàn)出色，但其推理能力仍有局限。未來，研究人員需進一步探索如何提高LLM的推理能力，使其更好地理解和解決復雜問題。

本文鏈接：http://www.www897cc.com/showinfo-45-9250-0.html蘋果研究員質疑AI：簡單數(shù)學題一改就出錯？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：方程豹豹8預售開啟，40-50萬元，年內上市交付！

下一篇：上海交大新突破！AI預警平臺，首次實現(xiàn)孕前預測流產風險？

標簽：

熱門焦點

這一超級富豪“逆襲”，身價大增4330億

來源：侃見財經互聯(lián)網的突圍沒有“終點”。在快節(jié)奏的商業(yè)環(huán)境下，不斷的試錯成了互聯(lián)網企業(yè)的標配，一年一個風口，一個風口造就一個熱點，但是回頭來看，最終受益的還是身處
在元宇宙賣酸奶，這波聯(lián)動燃爆了！

來源：品牌頭版或許，每個人心中都住著一個小饞孩?？赡苁峭陼r百吃不厭，覺得新奇又有趣的跳跳糖；可能是味道香甜，咬下一口嘎嘣脆的扁桃仁；還有可能，是某種不知為什么，就是很愛吃的
企業(yè)熱、用戶冷，元宇宙第一站將是“營銷場”？

如果說2021年底什么最火熱，那元宇宙當之無愧。“萬物皆可元宇宙”似乎成為新的流行語，在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日，有消息傳
如何對一款 NFT 項目進行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導 Web3 和 NFT 領域的企業(yè)家，因為我相信我們正在見證社會
城市數(shù)字孿生標準化白皮書（2022版）

當前，城市數(shù)字孿生已經發(fā)展成為支撐智慧城市的重要技術手段。城市數(shù)字孿生通過在數(shù)字空間對城市物理空間和社會空間進行全要素表達、全過程呈現(xiàn)、全周期可溯，實
中國區(qū)塊鏈產業(yè)生態(tài)地圖報告（2021）

區(qū)塊鏈是技術整合創(chuàng)新、金融創(chuàng)新、組織方式創(chuàng)新、產業(yè)應用創(chuàng)新的多維度創(chuàng)新，以服務實體經濟、政務民生以及公共服務等領域為落腳點，以期實現(xiàn)整個地區(qū)和產業(yè)的資
2021年中國智慧城市行業(yè)概覽：AI慧眼獨具，賦能“雙碳”目標

中國智慧城市試點項目主要集中于東南地區(qū)以及華中地區(qū)，受制于應用場景分散以及行業(yè)地域建設差異，目前中國智慧城市存在較多弊端，未來數(shù)量有望持續(xù)突破。中國智慧
Terra鏈上TVL躍升至第二

據(jù)DefiLlama數(shù)據(jù)顯示，當前,Terra鏈上應用鎖倉的加密資產價值（TVL）為172.1億美元，在公鏈板塊中已躍升至第二，超越了幣安智能鏈TVL的118億美元，TVL排名居首的仍為以太
新聞業(yè)在元宇宙的現(xiàn)狀和未來

“美聯(lián)社有毛病吧，這真的過分了！”，一位媒體編輯在推特中憤怒地表示。這是針對一款視頻NFT的批評言論之一，之后取消了此次銷售，因為該視頻呈現(xiàn)了移民穿越地中海的苦

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

蘋果研究員質疑AI：簡單數(shù)學題一改就出錯？

這一超級富豪“逆襲”，身價大增4330億

在元宇宙賣酸奶，這波聯(lián)動燃爆了！

企業(yè)熱、用戶冷，元宇宙第一站將是“營銷場”？

如何對一款 NFT 項目進行價值評估？

城市數(shù)字孿生標準化白皮書（2022版）

中國區(qū)塊鏈產業(yè)生態(tài)地圖報告（2021）

2021年中國智慧城市行業(yè)概覽：AI慧眼獨具，賦能“雙碳”目標

Terra鏈上TVL躍升至第二

新聞業(yè)在元宇宙的現(xiàn)狀和未來

最新推薦

元宇宙帶來沉浸式智能登錄？你學會了嗎？

從虛擬餐廳到虛擬時裝秀，行業(yè)巨頭掀起元宇宙商標注冊潮

2022年去中心化交易所會崛起嗎？

Interface正大光明的“跑路”，社區(qū)成員贊格局大

花旗集團前高管加入Provenance區(qū)塊鏈，擔任CEO

元宇宙的應用行業(yè)研究：娛樂可能是元宇宙落地最快的場景之一

猜你喜歡

熱門推薦

相關資訊