日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

蘋果最新研究:現(xiàn)有 AI 大模型“更像是在記憶,而非真正的推理”

來源: 責編: 時間:2025-06-09 09:36:28 142觀看
導讀 6 月 8 日消息,蘋果機器學習研究中心于當?shù)貢r間 6 月 6 日發(fā)表了一篇研究論文,稱現(xiàn)有 AI 模型并不具備真正的思維能力或推理能力,而是依賴于模式匹配與記憶,尤其是對于復雜的任務而言。蘋果研究人員對現(xiàn)有的前沿

6 月 8 日消息,蘋果機器學習研究中心于當?shù)貢r間 6 月 6 日發(fā)表了一篇研究論文,稱現(xiàn)有 AI 模型并不具備真正的思維能力或推理能力,而是依賴于模式匹配與記憶,尤其是對于復雜的任務而言。SWS28資訊網(wǎng)——每日最新資訊28at.com

SWS28資訊網(wǎng)——每日最新資訊28at.com

蘋果研究人員對現(xiàn)有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 進行了系統(tǒng)評估。SWS28資訊網(wǎng)——每日最新資訊28at.com

研究發(fā)現(xiàn),盡管這些模型具備生成詳細“思考鏈”的能力,并在中等復雜度任務上表現(xiàn)出優(yōu)勢,但其推理能力存在根本性局限:當問題復雜度超過特定臨界點時,模型性能會完全崩潰至“零準確率”。SWS28資訊網(wǎng)——每日最新資訊28at.com

此外,在模型推理過程中,即使仍有充足的推理算力,它們用于“思考”的 token 數(shù)量反而隨難度上升而減少,這種現(xiàn)象意味著現(xiàn)有推理方法存在根本局限性。SWS28資訊網(wǎng)——每日最新資訊28at.com

SWS28資訊網(wǎng)——每日最新資訊28at.com

這篇《思考的幻象:通過問題復雜性的視角理解推理模型的優(yōu)勢與局限》由 Parshin Shojaee 等人撰寫。研究表明,當前業(yè)界對這些模型的評估主要集中在數(shù)學和編程基準測試上,關(guān)注最終答案的準確性,但這往往忽略了數(shù)據(jù)污染問題,也無法提供有關(guān)內(nèi)部推理軌跡結(jié)構(gòu)和質(zhì)量的洞見。SWS28資訊網(wǎng)——每日最新資訊28at.com

研究人員采用了一系列可控的解謎環(huán)境,允許精確操縱組成復雜性,同時保持邏輯結(jié)構(gòu)的一致性。這使得不僅可以分析最終答案,還可以探究內(nèi)部推理軌跡,從而更深入地了解這些模型是如何“思考”的。SWS28資訊網(wǎng)——每日最新資訊28at.com

研究團隊提出,模型表現(xiàn)可分為三個階段:SWS28資訊網(wǎng)——每日最新資訊28at.com

低復雜度任務:傳統(tǒng)大模型(IT酷哥注:如 Claude-3.7 無思維版本)表現(xiàn)更佳;SWS28資訊網(wǎng)——每日最新資訊28at.com

中等復雜度任務:具備思維機制的大型推理模型(LRMs)更占優(yōu)勢;SWS28資訊網(wǎng)——每日最新資訊28at.com

高復雜度任務:兩類模型均陷入完全失效狀態(tài)。SWS28資訊網(wǎng)——每日最新資訊28at.com

特別是,研究發(fā)現(xiàn) LRMs 在執(zhí)行精確計算方面存在局限性,無法使用顯式算法且跨不同謎題進行推理時表現(xiàn)出不一致性。SWS28資訊網(wǎng)——每日最新資訊28at.com

總的來說,這項研究不僅質(zhì)疑了當前基于已建立數(shù)學基準的 LRMs 評估范式,還強調(diào)了需要更加細致的實驗設置來探索這些問題。通過使用可控制的謎題環(huán)境,本研究提供了對語言推理模型能力和局限性的深刻見解,并為未來的研究指明了方向。SWS28資訊網(wǎng)——每日最新資訊28at.com

研究人員表示,“這些發(fā)現(xiàn)突出了現(xiàn)有 LRMs 的優(yōu)點和局限性,引發(fā)了關(guān)于這些系統(tǒng)推理本質(zhì)的問題,這對它們的設計和部署具有重要意義。”SWS28資訊網(wǎng)——每日最新資訊28at.com

參考資料:SWS28資訊網(wǎng)——每日最新資訊28at.com

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》SWS28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-157707-0.html蘋果最新研究:現(xiàn)有 AI 大模型“更像是在記憶,而非真正的推理”

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 《侏羅紀世界:重生》發(fā)布正片片段:中國內(nèi)地定檔 7 月 2 日,斯嘉麗?約翰遜主演

下一篇: 我國渤海最大油氣平臺完成海上浮托安裝,預計年內(nèi)投入生產(chǎn)

標簽:
  • 熱門焦點
  • 石頭自清潔掃拖機器人G10S評測:多年黑科技集大成之作 懶人終極福音

    科技圈經(jīng)常能看到一個詞叫“縫合怪”,用來形容那些把好多功能或者外觀結(jié)合在一起的產(chǎn)品,通常這樣的詞是貶義詞,但如果真的是產(chǎn)品縫合的好、縫合的實用的話,那它就成了中性詞,今
  • 7月安卓手機性能榜:紅魔8S Pro再奪榜首

    7月份的手機市場風平浪靜,除了紅魔和努比亞帶來了兩款搭載驍龍8Gen2領(lǐng)先版處理器的新機之外,別的也想不到有什么新品了,這也正常,通常6月7月都是手機廠商修整的時間,進入8月份之
  • 28個SpringBoot項目中常用注解,日常開發(fā)、求職面試不再懵圈

    前言在使用SpringBoot開發(fā)中或者在求職面試中都會使用到很多注解或者問到注解相關(guān)的知識。本文主要對一些常用的注解進行了總結(jié),同時也會舉出具體例子,供大家學習和參考。注解
  • 如何正確使用:Has和:Nth-Last-Child

    我們可以用CSS檢查,以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如,一個擁有三個或更多子項的grid。你可能會想,為什么需要這樣做呢?在某些情況下,一個組件或一個布局可能會
  • 多線程開發(fā)帶來的問題與解決方法

    使用多線程主要會帶來以下幾個問題:(一)線程安全問題  線程安全問題指的是在某一線程從開始訪問到結(jié)束訪問某一數(shù)據(jù)期間,該數(shù)據(jù)被其他的線程所修改,那么對于當前線程而言,該線程
  • 自律,給不了Keep自由!

    來源 | 互聯(lián)網(wǎng)品牌官作者 | 李大為編排 | 又耳 審核 | 谷曉輝自律能不能給用戶自由暫時不好說,但大概率不能給Keep自由。近日,全球最大的在線健身平臺Keep正式登陸港交所,努力
  • 8月見!小米MIX Fold 3獲得3C認證:支持67W快充

    這段時間以來,包括三星、一加、榮耀等等有不少品牌旗下的最新折疊屏旗艦都得到了不少爆料,而小米新一代折疊屏旗艦——小米MIX Fold 3此前也屢屢被傳
  • 三星顯示已開始為AR設備研發(fā)硅基LED微顯示屏

    7月18日消息,據(jù)外媒報道,隨著蘋果首款頭顯產(chǎn)品Vision Pro在6月份正式推出,AR/VR/MR等頭顯產(chǎn)品也就將成為各大公司下一個重要的競爭領(lǐng)域,對顯示屏這一關(guān)
  • iQOO Neo8 Pro搶先上架:首發(fā)天璣9200+ 安卓性能之王

    經(jīng)過了一段時間的密集爆料,昨日iQOO官方如期對外宣布:將于5月23日推出全新的iQOO Neo8系列新品,官方稱這是一款擁有旗艦級性能調(diào)校的作品。隨著發(fā)布時
Top 主站蜘蛛池模板: 宜章县| 兴义市| 武冈市| 南木林县| 蓝田县| 隆安县| 广饶县| 陈巴尔虎旗| 鲁甸县| 茶陵县| 长海县| 隆安县| 深水埗区| 炉霍县| 阳谷县| 大竹县| 宁河县| 民权县| 赤水市| 逊克县| 邵阳市| 潢川县| 浙江省| 民县| 阿尔山市| 钟祥市| 莱芜市| 温州市| 海宁市| 和静县| 五家渠市| 凤翔县| 六安市| 峨山| 万州区| 砀山县| 江口县| 沭阳县| 龙州县| 嘉禾县| 灵台县|