當前位置：首頁 > 元宇宙 > AI

OpenAI o1 AI 模型 PlanBench 規劃能力實測：準確率 97.8%，遠超 LLaMA 3.1 405B 創造的 62.6% 紀錄

來源：責編：時間：2024-09-27 16:34:57 104觀看

導讀 9 月 25 日消息，來自亞利桑那州立大學的科研團隊利用 PlanBench 基準，測試了 OpenAI o1 模型的規劃能力。研究結果表明 o1 模型取得了長足的進步，但仍然存在很大的局限性。PlanBench 基準簡介PlanBench 開發于 2

9 月 25 日消息，來自亞利桑那州立大學的科研團隊利用 PlanBench 基準，測試了 OpenAI o1 模型的規劃能力。研究結果表明 o1 模型取得了長足的進步，但仍然存在很大的局限性。

PlanBench 基準簡介

PlanBench 開發于 2022 年，用于評估人工智能系統的規劃能力，包括 600 個來自 Blocksworld 領域的任務，其中積木必須按照特定順序堆疊。

OpenAI o1 模型成績

在 Blocksworld 任務中，OpenAI 的 o1 模型準確率達到 97.8%，大大超過了之前的最佳語言模型 LLaMA 3.1 405B（準確率為 62.6%）。

在更具挑戰性的“Mystery Blocksworld”加密版本中，傳統模型幾乎全部失敗，而 OpenAI 的 o1 模型準確率達到 52.8%。附上報告圖片如下：

研究人員還測試了一種新的隨機變體，以排除 o1 的性能可能源于其訓練集中的基準數據。在這次測試中，O1 的準確率降至 37.3%，但仍遠遠超過了得分接近零的其它模型。

規劃步驟越多，性能下降越明顯

隨著任務越來越復雜，o1 的表現也急劇下降。在需要 20 到 40 個規劃步驟的問題上，o1 在較簡單測試中的準確率從 97.8% 下降到只有 23.63%。

該模型在識別無法解決的任務方面也很吃力，只有 27% 的時間能夠正確識別。在 54% 的情況下，它錯誤地生成了完整但不可能完成的計劃。

“Quantum improvement”，但并非突破性

雖然 o1 在基準性能上實現了“量子改進”（Quantum improvement），但它并不能保證解決方案的正確性。如快速向下算法等經典的規劃算法，可以在更短的計算時間內實現完美的準確性。

研究還強調了 o1 的高資源消耗，運行這些測試需要花費近 1900 美元，而經典算法在標準計算機上運行幾乎不需要任何成本。

研究人員強調，對人工智能系統進行公平比較必須考慮準確性、效率、成本和可靠性。他們的研究結果表明，雖然像 o1 這樣的人工智能模型在復雜推理任務方面取得了進步，但這些能力還不夠強大。

由媒體TheDecoder 使用 Midjourney 生成

本文鏈接：http://www.www897cc.com/showinfo-45-7799-0.htmlOpenAI o1 AI 模型 PlanBench 規劃能力實測：準確率 97.8%，遠超 LLaMA 3.1 405B 創造的 62.6% 紀錄

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微軟發布新工具，檢測和糾正 AI 幻覺內容

下一篇：世嘉/ATLUS重磅來襲！東京電玩展直播，游戲迷們別錯過！

標簽：

熱門焦點

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

日前，天下秀數字科技集團正式公布了2022年報及2023年一季報。報告顯示，2022年天下秀實現營收41.29億元，同比下滑8.48%；歸母凈利潤1.8億元，同比下滑49.2%，幾乎出現了盈利腰斬的態勢
2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

在剛剛結束不久的2021年江蘇衛視跨年演唱會上，虛擬鄧麗君與歌手周深同臺聯唱，實現了跨時代合作，而這還不只是“鄧麗君”，嗶哩嗶哩、東方衛視等多家跨年晚會都出現
搭上“谷愛凌”，“柳夜熙們”站上風口？

作者：張琳曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會，作為元宇宙細分賽道之一的虛擬數字人又火了一把。2月7日，即谷愛凌摘得冬奧會自由式滑雪大跳臺金牌的
以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

作者：三黎過去的一年里，除了 BTC 一如既往穩坐王位，DEFI 則是貫穿一整年的狂歡熱點。 DeFi 在讓 ETH 實現價值增長的同時，也使得其網絡日漸擁堵、交易費用增高，成為
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
以用戶為中心，Web3和區塊鏈如何將用戶放在首位

競爭優勢正在改變競爭優勢是每個企業都在努力爭取的，由谷歌、Facebook和Netflix等大型科技公司主導的市場中，兩大重要類別的競爭優勢十分突出。第一個競爭優勢來
NFT世界的藝術家名單

我們匯編了以下藝術家的名單，它包括每個藝術家的簡短概述。當然，這份名單肯定不全面，還有很多很多藝術家、哲學家和商業領袖為世界貢獻了不可估量的價值。而他們
知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

根據市場追蹤網站 DappRadar 的數據，隨著 NFT 的“出圈”與加密貨幣的普及，NFT 市場在 2021 年的銷售額達到約 250 億美元，而 2020 年僅為 9490 萬美元，同比增超 2
從NFT數字收藏，洞察數字音樂版權市場發展趨勢

去年8月9日，騰訊音樂布局NFT數字收藏，在騰訊應用寶發布幻核app，騰訊音樂的提前布局示意著未來區塊鏈技術將對數字音樂版權市場進行改造升級。作者從深層測分析為

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI o1 AI 模型 PlanBench 規劃能力實測：準確率 97.8%，遠超 LLaMA 3.1 405B 創造的 62.6% 紀錄

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

搭上“谷愛凌”，“柳夜熙們”站上風口？

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

下一個黃金賽道？NFT的碎片化!

以用戶為中心，Web3和區塊鏈如何將用戶放在首位

NFT世界的藝術家名單

知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

從NFT數字收藏，洞察數字音樂版權市場發展趨勢

最新推薦

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

中文在線的“元宇宙”故事，資本聽膩了？

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

在元宇宙開會是什么樣一種體驗

76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

猜你喜歡

熱門推薦

相關資訊