日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

蘋果AI研究引爭議:LRM推理極限還是評估方法有誤?

來源: 責編: 時間:2025-06-17 09:50:20 14觀看
導讀近期,科技界圍繞蘋果公司一篇關于人工智能的論文展開了激烈討論。這篇題為《思維的錯覺》的論文,由蘋果公司于6月6日發布,迅速引起了專家們的關注與爭議。論文中,蘋果公司提出一個核心觀點:即便是目前最頂尖的大型推理模型

近期,科技界圍繞蘋果公司一篇關于人工智能的論文展開了激烈討論。這篇題為《思維的錯覺》的論文,由蘋果公司于6月6日發布,迅速引起了專家們的關注與爭議。CJt28資訊網——每日最新資訊28at.com

論文中,蘋果公司提出一個核心觀點:即便是目前最頂尖的大型推理模型(LRMs),在面對復雜任務時也會遭遇崩潰。然而,這一結論隨即遭到了Open Philanthropy研究員Alex Lawsen的有力反駁。Lawsen認為,蘋果的結論更多地反映了實驗設計的瑕疵,而非模型推理能力的固有缺陷。CJt28資訊網——每日最新資訊28at.com

爭議的核心聚焦于蘋果論文中的一個具體案例:即便是最先進的大型推理模型,在處理如漢諾塔問題這樣的復雜遞歸算法任務時,也會徹底失敗。漢諾塔問題是一個經典問題,要求將一系列大小不同的圓盤從一個柱子移動到另一個柱子,且需遵循特定規則。CJt28資訊網——每日最新資訊28at.com

CJt28資訊網——每日最新資訊28at.com

針對這一觀點,Alex Lawsen撰寫了一篇題為《思維錯覺的錯覺》的反駁文章。他指出,蘋果的研究混淆了輸出限制和評估設置的問題,從而得出了誤導性的結論。Lawsen詳細列舉了三大問題來挑戰蘋果的結論。CJt28資訊網——每日最新資訊28at.com

首先,Lawsen強調蘋果忽略了模型的Token預算限制。在處理超過8個圓盤的漢諾塔問題時,一些模型如Anthropic的Claude Opus,已接近其輸出極限,甚至因節省Token而停止輸出。其次,蘋果的過河測試中包含了一些無解謎題,模型因拒絕解答而被判定為失敗,這顯然是不公平的。最后,蘋果的自動化評估腳本過于僵化,僅將完整步驟列表視為成功標準,未能區分推理失敗與輸出截斷,導致部分策略性輸出被誤判。CJt28資訊網——每日最新資訊28at.com

為了證明自己的觀點,Lawsen重新設計了漢諾塔測試,要求模型生成遞歸Lua函數來打印解法,而非逐一列出步驟。結果令人震驚:Claude、Gemini和OpenAI的o3模型均能正確生成15個圓盤問題的算法解法,遠超蘋果報告中“零成功”的復雜性界限。CJt28資訊網——每日最新資訊28at.com

CJt28資訊網——每日最新資訊28at.com

Lawsen還指出,在去除人為輸出限制后,LRMs展現出了處理高復雜任務的推理能力,至少在算法生成層面是如此。這表明,問題可能并不在于模型本身,而在于評估方式。這一發現無疑為人工智能領域帶來了新的思考和啟示。CJt28資訊網——每日最新資訊28at.com

為了更直觀地展示其觀點,Lawsen還提供了其他測試結果的對比圖,進一步證明了其論點的合理性。CJt28資訊網——每日最新資訊28at.com

CJt28資訊網——每日最新資訊28at.com

此次爭議不僅揭示了人工智能研究中的復雜性和挑戰,也再次強調了科學評估方法的重要性。隨著人工智能技術的不斷發展,如何更準確地評估模型的推理能力,將成為未來研究的重要方向。CJt28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-160271-0.html蘋果AI研究引爭議:LRM推理極限還是評估方法有誤?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 一加夏季新品發布會:43mm版手表3與Buds 4耳機即將亮相

下一篇: 小米6月新品盛宴即將開啟,YU7、K80至尊版等眾多爆款來襲!

標簽:
  • 熱門焦點
  • Redmi Buds 4開箱簡評:才199還有降噪 可以無腦入

    在上個月舉辦的Redmi Note11T Pro系列新機發布會上,除了兩款手機新品之外,Redmi還帶來了兩款TWS真無線藍牙耳機產品,Redmi Buds 4和Redmi Buds 4 Pro,此前我們在Redmi Note11T
  • K8S | Service服務發現

    一、背景在微服務架構中,這里以開發環境「Dev」為基礎來描述,在K8S集群中通常會開放:路由網關、注冊中心、配置中心等相關服務,可以被集群外部訪問;圖片對于測試「Tes」環境或者
  • 三萬字盤點 Spring 九大核心基礎功能

    大家好,我是三友~~今天來跟大家聊一聊Spring的9大核心基礎功能。話不多說,先上目錄:圖片友情提示,本文過長,建議收藏,嘿嘿嘿!一、資源管理資源管理是Spring的一個核心的基礎功能,不
  • Python異步IO編程的進程/線程通信實現

    這篇文章再講3種方式,同時講4中進程間通信的方式一、 Python 中線程間通信的實現方式共享變量共享變量是多個線程可以共同訪問的變量。在Python中,可以使用threading模塊中的L
  • Temu起訴SHEIN,跨境電商戰事升級

    來源 | 伯虎財經(bohuFN)作者 | 陳平安日前據外媒報道,拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟,訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
  • 騰訊VS網易,最卷游戲暑期檔,誰能笑到最后?

    作者:無銹缽來源:財經無忌7月16日晚,上海1862時尚藝術中心。伴隨著幻象的精準命中,碩大的熒幕之上,比分被定格在了14:12,被寄予厚望的EDG戰隊以絕對的優勢戰勝了BLG戰隊,拿下了總決
  • 自研Exynos回歸!三星Galaxy S24系列將提供Exynos和驍龍雙版本

    年初,全新的三星Galaxy S23系列發布,包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三個版本,全系搭載超頻版驍龍8 Gen 2,雖同樣采用臺積電4nm工藝制
  • 蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

    據 The Elec 報道,蘋果已要求其供應商為未來的 iPhone 型號開發「無邊框」OLED 顯示面板。蘋果顯然已要求三星和 LG Display 開發新的 OLED 顯示面
  • AMD的AI芯片轉單給三星可能性不大 與臺積電已合作至2nm制程

    據 DIGITIMES 消息,英偉達 AI GPU 出貨逐季飆升,接下來 AMD MI 300 系列將在第 4 季底量產。而半導體業內人士表示,近日傳出 AMD 的 AI 芯片將轉單給
Top 主站蜘蛛池模板: 青阳县| 红河县| 辉县市| 永春县| 镇安县| 清原| 荣成市| 邵阳县| 遂昌县| 调兵山市| 班玛县| 澎湖县| 汉寿县| 新龙县| 井陉县| 新巴尔虎左旗| 洛宁县| 城步| 弥勒县| 普兰县| 遵化市| 鄯善县| 安平县| 鄂托克前旗| 南召县| 建瓯市| 修水县| 邢台市| 工布江达县| 斗六市| 盐源县| 庆元县| 方山县| 莎车县| 栖霞市| 乌审旗| 高要市| 察哈| 绍兴市| 绥江县| 武邑县|