日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

OpenAI o1 AI 模型 PlanBench 規劃能力實測:準確率 97.8%,遠超 LLaMA 3.1 405B 創造的 62.6% 紀錄

來源: 責編: 時間:2024-09-27 16:34:57 104觀看
導讀 9 月 25 日消息,來自亞利桑那州立大學的科研團隊利用 PlanBench 基準,測試了 OpenAI o1 模型的規劃能力。研究結果表明 o1 模型取得了長足的進步,但仍然存在很大的局限性。PlanBench 基準簡介PlanBench 開發于 2

9 月 25 日消息,來自亞利桑那州立大學的科研團隊利用 PlanBench 基準,測試了 OpenAI o1 模型的規劃能力。研究結果表明 o1 模型取得了長足的進步,但仍然存在很大的局限性。44528資訊網——每日最新資訊28at.com

PlanBench 基準簡介

PlanBench 開發于 2022 年,用于評估人工智能系統的規劃能力,包括 600 個來自 Blocksworld 領域的任務,其中積木必須按照特定順序堆疊。44528資訊網——每日最新資訊28at.com

OpenAI o1 模型成績

在 Blocksworld 任務中,OpenAI 的 o1 模型準確率達到 97.8%,大大超過了之前的最佳語言模型 LLaMA 3.1 405B(準確率為 62.6%)。44528資訊網——每日最新資訊28at.com

在更具挑戰性的“Mystery Blocksworld”加密版本中,傳統模型幾乎全部失敗,而 OpenAI 的 o1 模型準確率達到 52.8%。附上報告圖片如下:44528資訊網——每日最新資訊28at.com

44528資訊網——每日最新資訊28at.com

研究人員還測試了一種新的隨機變體,以排除 o1 的性能可能源于其訓練集中的基準數據。在這次測試中,O1 的準確率降至 37.3%,但仍遠遠超過了得分接近零的其它模型。44528資訊網——每日最新資訊28at.com

規劃步驟越多,性能下降越明顯

隨著任務越來越復雜,o1 的表現也急劇下降。在需要 20 到 40 個規劃步驟的問題上,o1 在較簡單測試中的準確率從 97.8% 下降到只有 23.63%。44528資訊網——每日最新資訊28at.com

該模型在識別無法解決的任務方面也很吃力,只有 27% 的時間能夠正確識別。在 54% 的情況下,它錯誤地生成了完整但不可能完成的計劃。44528資訊網——每日最新資訊28at.com

“Quantum improvement”,但并非突破性

雖然 o1 在基準性能上實現了“量子改進”(Quantum improvement),但它并不能保證解決方案的正確性。如快速向下算法等經典的規劃算法,可以在更短的計算時間內實現完美的準確性。44528資訊網——每日最新資訊28at.com

研究還強調了 o1 的高資源消耗,運行這些測試需要花費近 1900 美元,而經典算法在標準計算機上運行幾乎不需要任何成本。44528資訊網——每日最新資訊28at.com

研究人員強調,對人工智能系統進行公平比較必須考慮準確性、效率、成本和可靠性。他們的研究結果表明,雖然像 o1 這樣的人工智能模型在復雜推理任務方面取得了進步,但這些能力還不夠強大。44528資訊網——每日最新資訊28at.com

44528資訊網——每日最新資訊28at.com

由媒體TheDecoder 使用 Midjourney 生成

本文鏈接:http://www.www897cc.com/showinfo-45-7799-0.htmlOpenAI o1 AI 模型 PlanBench 規劃能力實測:準確率 97.8%,遠超 LLaMA 3.1 405B 創造的 62.6% 紀錄

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟發布新工具,檢測和糾正 AI 幻覺內容

下一篇: 世嘉/ATLUS重磅來襲!東京電玩展直播,游戲迷們別錯過!

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 固镇县| 沈阳市| 扎兰屯市| 会东县| 石屏县| 西林县| 凤庆县| 兴义市| 苗栗市| 伊宁市| 上饶市| 成都市| 仙游县| 黄梅县| 高州市| 民勤县| 阿瓦提县| 台江县| 商南县| 华池县| 鹤庆县| 南和县| 普定县| 石嘴山市| 盐源县| 共和县| 永胜县| 辽宁省| 宁陕县| 南开区| 沭阳县| 昌图县| 武定县| 金乡县| 新乡市| 尚义县| 敦化市| 宿州市| 乐平市| 固阳县| 衢州市|