日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

OpenAI o1模型實測:PlanBench規劃能力,準確率高達97.8%!

來源: 責編: 時間:2024-09-25 16:50:30 111觀看
導讀【ITBEAR】9月25日消息,近日,亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示,盡管o1模型在某些方面取得了顯著的進步,但其仍然存在較大的局限性。PlanBench基準于2022

【ITBEAR】9月25日消息,近日,亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示,盡管o1模型在某些方面取得了顯著的進步,但其仍然存在較大的局限性。1gF28資訊網——每日最新資訊28at.com

PlanBench基準于2022年開發,主要用于評估人工智能系統在規劃方面的能力。該基準包含了600個來自Blocksworld領域的任務,要求積木必須按照特定的順序進行堆疊。1gF28資訊網——每日最新資訊28at.com

據ITBEAR了解,在Blocksworld任務中,OpenAI的o1模型展現出了驚人的表現,其準確率高達97.8%,遠遠超過了之前的最佳語言模型LLaMA 3.1 405B的62.6%。在更具挑戰性的“Mystery Blocksworld”加密版本中,傳統模型幾乎全部失敗,而o1模型的準確率仍能達到52.8%。1gF28資訊網——每日最新資訊28at.com

為了驗證o1模型的性能是否源于其訓練集中的基準數據,研究人員還測試了一種新的隨機變體。在這次測試中,o1模型的準確率降至37.3%,但仍遠超其他得分接近零的模型。1gF28資訊網——每日最新資訊28at.com

然而,隨著任務的復雜性增加,o1模型的表現也急劇下降。在需要20到40個規劃步驟的問題上,o1模型在較簡單測試中的準確率從97.8%驟降至23.63%。此外,該模型在識別無法解決的任務方面也顯得力不從心,只有27%的時間能夠正確識別,而在54%的情況下,它錯誤地生成了完整但不可能完成的計劃。1gF28資訊網——每日最新資訊28at.com

盡管o1模型在基準性能上實現了顯著的改進,但它并不能保證解決方案的正確性。與經典的規劃算法相比,如快速向下算法,這些算法可以在更短的計算時間內實現完美的準確性。1gF28資訊網——每日最新資訊28at.com

研究還指出,o1模型的高資源消耗是一個不容忽視的問題。運行這些測試需要花費近1900美元,而經典算法在標準計算機上運行則幾乎不需要任何成本。1gF28資訊網——每日最新資訊28at.com

研究人員強調,對人工智能系統進行公平比較時,必須綜合考慮準確性、效率、成本和可靠性。他們的研究結果表明,盡管像o1這樣的人工智能模型在復雜推理任務方面取得了進步,但這些能力仍然有待提升。1gF28資訊網——每日最新資訊28at.com

關鍵詞:#OpenAI o1模型# #規劃能力測試# #PlanBench基準# #局限性# #資源消耗#1gF28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7677-0.htmlOpenAI o1模型實測:PlanBench規劃能力,準確率高達97.8%!

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 明年4月,半價iPhone登場?搭載最新芯片引關注!

下一篇: 百度百舸AI計算平臺4.0發布,模型訓練效率逼近極限?

標簽:
  • 熱門焦點
  • 大廠元宇宙,又菜又愛玩

    撰文 | 吳先之 編輯 | 王 潘當下所有大廠推出的元宇宙產品,所能帶來的沉浸式體驗并不多,好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設
  • 元宇宙風口下,視覺中國如何重估?

    要說橫跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局,上市公司們趨之若鶩,還被不少地方政府寫入了產業規劃,大有在2022年
  • 避坑指南:遠離具有這些特性的NFT

    關于NFT,在我們的文章中一直以來都是常駐嘉賓,不止因為NFT背后隱藏的潛力,更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手,OpenSea、庫里、ERC115、視覺中國、
  • 美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

    No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯網一樣2月16日消息,俄羅斯財政部長安東·西盧安諾夫(Anton Siluanov)表示,在俄羅斯禁止加密貨幣就跟禁止互
  • 區塊鏈產業人才發展報告

    工業和信息化部作為工業和信息化行業主管部門,正在著力推進“兩個強國”建設,加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
  • 想進入web3.0?來看看哪些工作適合你

    隨著對加密貨幣需求的增加,加密領域的工作的數量也在增加。以下是一些非技術性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區塊鏈領域的求職
  • 這個好萊塢影視制作公司涉足NFT,讓持有者在制作中發揮作用

    前米高梅首席執行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室,提供 NFT,讓持有者在制作中發揮作用Electromagnetic Productions 創始
  • 美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

    今天,Billboard宣布與流行的NFT頭像集World of Women(WoW)建立新的伙伴關系,向NFT生態系統又邁進了一步。在這次合作中,WoW的創建者Yam Karkai將幫助這個音樂行業巨
  • 虛擬鄧麗君后,數字人賽道開啟3.0時代

    “如果右腦時代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發數字人形象時,自己的團隊在內部“卷”了一下:“當我們翻閱大量歷史典籍的時候,蘇小妹找到
Top 主站蜘蛛池模板: 洪雅县| 宁河县| 吉水县| 峨边| 通化县| 高青县| 南乐县| 徐汇区| 康平县| 苏尼特左旗| 西峡县| 鸡西市| 涿州市| 仙桃市| 中阳县| 阳春市| 清苑县| 松原市| 年辖:市辖区| 普安县| 疏附县| 车险| 沛县| 松原市| 乡宁县| 牙克石市| 泗洪县| 长兴县| 福海县| 镇宁| 武定县| 洛扎县| 孝感市| 巴彦淖尔市| 福海县| 诏安县| 伊宁市| 响水县| 井冈山市| 安溪县| 中西区|