當前位置：首頁 > 元宇宙 > AI

首個 AI Kaggle 特級大師誕生，OpenAI 的 o1-preview 奪 7 金封王

來源：責編：時間：2024-10-14 16:19:52 73觀看

導讀 10 月 12 日消息，科技媒體 The Decoder 昨日（10 月 11 日）發布博文，報道稱 OpenAI 公司推出 MLE-bench 新基準，旨在評估 AI 智能體在開發機器學習解決方案方面的能力。該基準包括 75 個 Kaggle 競賽，旨在衡量自主 A

10 月 12 日消息，科技媒體 The Decoder 昨日（10 月 11 日）發布博文，報道稱 OpenAI 公司推出 MLE-bench 新基準，旨在評估 AI 智能體在開發機器學習解決方案方面的能力。

該基準包括 75 個 Kaggle 競賽，旨在衡量自主 AI 系統在機器學習工程中的進展。這些競賽涵蓋了多個領域，包括自然語言處理、計算機視覺和信號處理等等。

注：Kaggle 是一個非常受歡迎的平臺，專注于數據科學和機器學習的在線比賽。Kaggle 提供各種類型的比賽，包括數據預測、圖像分類、自然語言處理等，適合不同技能水平的參與者。

在 Kaggle 的進階系統中，“Novice”（新手）、“Contributor”（貢獻者）、“Expert”（專家）、“Master”（大師）和 "Grandmaster"（特級大師）是不同的績效層級，用于衡量和識別數據科學家在 Kaggle 平臺上的技能水平和成就。

許多任務具有現實世界的應用，例如預測 COVID-19 mRNA 疫苗降解或解碼古代卷軸等。

MLE-bench 專注于兩個關鍵領域：

選擇具有挑戰性的任務：這些任務代表了當前機器學習的發展水平。

比較 AI 與人類的表現：通過對比，評估 AI 在特定任務中的能力。

OpenAI 在 MLE-bench 上測試了多個 AI 模型和智能體框架，使用 AIDE 框架的 o1-preview 模型表現最佳，在 16.9% 的比賽中至少獲得了一枚銅牌，該結果超越了 Anthropic 的 Claude 3.5 Sonnet。

獲得 5金即可評上 "Grandmaster" 特級大師，而 o1-preview 模型在MLE-bench測試中獲得了 7枚金牌。

OpenAI 承認 MLE-bench 也有局限性，并未涵蓋 AI 研究與開發的所有方面，主要集中在具有明確問題和簡單評估指標的任務上。

MLE-bench 基準現已在 GitHub 上發布，OpenAI 希望通過這一工具，推動 AI 在機器學習領域的進一步發展。

本文鏈接：http://www.www897cc.com/showinfo-45-9068-0.html首個 AI Kaggle 特級大師誕生，OpenAI 的 o1-preview 奪 7 金封王

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI 推出 meta-prompt 工具，AI 時代讓你掌握提示詞藝術

下一篇：中國移動發布九天善智多模態基座大模型及 30+ 款自研行業大模型

標簽：

熱門焦點

銀保監會：打擊以“元宇宙”為名義的違法行為

今日，銀保監會發布《關于防范以“元宇宙”名義進行非法集資的風險提示》，全文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名目吸收資金，涉
新款英特爾芯片將使NFT鑄造變得更加方便

科技巨頭和微處理器制造商英特爾（Intel）正在發布一款適用于 NFT 鑄造和挖礦的新芯片。新產品專注于效率、易操作性和可持續性，該公司的戰略是從加密興起與 NFT爆
元宇宙社交時代，華麗歸來的超級QQ秀重構虛擬社交場景

作者:狂人不知不覺間，QQ已經迎來了第23個生日。作為國內社交平臺的起點，QQ可謂是睥睨全網，不僅有龐大的用戶群體，還將虛擬形象及QQ整合成在線虛擬社區，開啟了時髦
參加元宇宙里的招聘會是什么樣一種體驗？

求職者可以在活動中走動，就像他們在現實生活中一樣。長話短說看亮點：招聘公司Hirect為Y-combinator支持的初創公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產
Meta 呼吁行業合作建立元宇宙網絡基礎設施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基礎設施，以支持其蓬勃發展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語之一，這在很大程度上是由 Facebo
花旗集團前高管加入Provenance區塊鏈，擔任CEO

No.1 花旗集團前高管加入Provenance區塊鏈，擔任CEO3月1日消息，Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼（Morgan McKenney）為新任首席執行官。麥肯
元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開
NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

1. “無聊猿”BAYC交易總額突破14億美元3月10日，據DappRader最新數據顯示，“無聊猿”Bored Ape Yacht Club（BAYC）交易總額已突破14億美元，創下歷史新高，本文撰寫時為

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

首個 AI Kaggle 特級大師誕生，OpenAI 的 o1-preview 奪 7 金封王

銀保監會：打擊以“元宇宙”為名義的違法行為

新款英特爾芯片將使NFT鑄造變得更加方便

元宇宙社交時代，華麗歸來的超級QQ秀重構虛擬社交場景

參加元宇宙里的招聘會是什么樣一種體驗？

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

Meta 呼吁行業合作建立元宇宙網絡基礎設施

花旗集團前高管加入Provenance區塊鏈，擔任CEO

元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

最新推薦

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現嗎？

元宇宙是推動NFT發展的初始家園

Interface正大光明的“跑路”，社區成員贊格局大

NFT高玩必備：NFT分析工具大盤點

元宇宙不完全是想出來的，而是實打實做出來的

我們離元宇宙的實現只差一副眼鏡？

猜你喜歡

熱門推薦

相關資訊