當前位置：首頁 > 元宇宙 > AI

AI“推理”模型興起，基準測試成本飆升

來源：責編：時間：2025-04-15 07:12:14 91觀看

導讀 4 月 13 日消息，隨著人工智能（AI）技術的不斷發展，所謂的“推理”AI 模型成為了研究熱點。這些模型能夠像人類一樣逐步思考問題，在特定領域，如物理學中，被認為比非推理模型能力更強。然而，這種優勢卻伴隨著高昂的測試

4 月 13 日消息，隨著人工智能（AI）技術的不斷發展，所謂的“推理”AI 模型成為了研究熱點。這些模型能夠像人類一樣逐步思考問題，在特定領域，如物理學中，被認為比非推理模型能力更強。然而，這種優勢卻伴隨著高昂的測試成本，使得獨立驗證這些模型的能力變得困難重重。

據第三方 AI 測試機構“人工智能分析”（Artificial Analysis）提供的數據顯示，評估 OpenAI 的 o1 推理模型在七個流行的 AI 基準測試（包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500）中的表現，需要花費 2767.05 美元（注：現匯率約合 20191 元人民幣）。而評估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元（現匯率約合 10839 元人民幣），相比之下，測試 OpenAI 的 o3-mini-high 則只需 344.59 美元（現匯率約合 2514 元人民幣）。盡管有些推理模型的測試成本相對較低，例如評估 OpenAI 的 o1-mini 只需 141.22 美元（現匯率約合 1030 元人民幣），但從整體來看，推理模型的測試成本仍然比較高昂。截至目前，“人工智能分析”已經花費了約 5200 美元（現匯率約合 37945 元人民幣）來評估大約十幾種推理模型，這一金額接近該公司分析超過 80 種非推理模型所花費的 2400 美元的兩倍。

OpenAI 在 2024 年 5 月發布的非推理 GPT-4o 模型，其評估成本僅為 108.85 美元，而 Claude 3.6 Sonnet（Claude 3.7 Sonnet 的非推理前身）的評估成本為 81.41 美元。“人工智能分析”聯合創始人喬治?卡梅倫（George Cameron）向 TechCrunch 表示，隨著越來越多的 AI 實驗室開發推理模型，該組織計劃增加其測試預算。“在‘人工智能分析’，我們每月進行數百次評估，并為此投入了相當可觀的預算，”卡梅倫說，“我們預計隨著模型的頻繁發布，這一支出將會增加。”

“人工智能分析”并非唯一面臨 AI 測試成本上升的機構。AI 初創公司“通用推理”（General Reasoning）的首席執行官羅斯?泰勒（Ross Taylor）表示，他最近花費了 580 美元用大約 3700 個獨特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計，僅對 MMLU Pro（一套旨在評估模型語言理解能力的問題集）進行一次完整的測試，成本就會超過 1800 美元。“我們正在邁向一個世界，在這個世界里，一個實驗室在一項基準測試中報告 x% 的結果，而他們在其中花費了 y 數量的計算資源，但學者們的資源遠遠小于 y，”泰勒在 X 上最近的一篇帖子中寫道，“沒有人能夠復制這些結果。”

那么，為什么推理模型的測試成本如此之高呢？主要原因在于它們生成了大量的 token。token 代表原始文本的片段，例如將單詞“fantastic”拆分為音節“fan”、“tas”和“tic”。據“人工智能分析”稱，在該公司的基準測試中，OpenAI 的 o1 生成了超過 4400 萬個 token，大約是 GPT-4o 生成量的八倍。大多數 AI 公司都是按 token 收費的，因此成本很容易就會累積起來。

此外，現代基準測試通常會從模型中引出大量 token，因為它們包含涉及復雜、多步驟任務的問題。Epoch AI 的高級研究員讓-斯坦尼斯拉斯?德內恩（Jean-Stanislas Denain）表示，這是因為今天的基準測試更加復雜，盡管每個基準測試的問題數量總體有所減少。“它們通常試圖評估模型執行現實世界任務的能力，例如編寫和執行代碼、瀏覽互聯網以及使用計算機，”德內恩稱。德內恩還指出，最昂貴的模型隨著時間的推移，每個 token 的成本也在增加。例如，Anthropic 在 2024 年 5 月發布的 Claude 3 Opus 是當時最昂貴的模型，每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時候推出的 GPT-4.5 和 o1-pro，每百萬輸出 token 的成本分別為 150 美元和 600 美元。

“盡管隨著時間的推移，模型的性能有所提高，達到給定性能水平的成本也確實大幅下降，但如果你想在任何特定時間評估最大最好的模型，你仍然需要支付更多，”德內恩說。許多 AI 實驗室，包括 OpenAI，為測試目的向基準測試組織提供免費或補貼的模型訪問權限。但一些專家表示，這會影響測試結果的公正性 —— 即使沒有操縱的證據，AI 實驗室的參與本身就可能損害評估評分的完整性。

本文鏈接：http://www.www897cc.com/showinfo-45-12237-0.htmlAI“推理”模型興起，基準測試成本飆升

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：蘋果AI發展滯后真相：預算削減與內部斗爭成主因

下一篇：美國教育部長出席峰會鬧烏龍：多次將 AI 誤稱為 A1

標簽：

熱門焦點

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

來源：清元宇宙炎炎夏日努力工作的Q仔的電腦都冒煙兒啦～今天要給大家介紹兩個新小伙伴——小元和小媧，他們將給大家解讀元媧2.7版本重磅更新內容～大家掌聲歡迎～～～本次更
在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
元宇宙將會如何塑造未來的工作方式？

科幻小說家尼爾·斯蒂芬森 (Neal Stephenson) 在1992年就創造了“元宇宙”一詞，但事實上，在Facebook將其更名為Meta以反映其將這一科幻愿景變為現實的戰略重點之
完美世界被元宇宙“拒之門外”

春節期間，游戲是消磨時間最好的方式，完美世界的《幻塔》作為選擇的首要目標，倒不是因為它的吸引力有多大，純粹是廣大網友的吐槽。繼《原神》之后，進擊元宇宙的游戲
暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

NFT Worlds 系列產品于 2021 年 10 月 5 日免費鑄造，該NFT系列是將傳統的中心化電子游戲minecraft 與去中心化資產相結合。傳統游戲Minecraft 對用戶定制非常開
藝術創作者能否永久收取版稅？

NFTs正在改變我們理解互聯網所有權的方式，社區管理的所有權有很多好處，但如果創作者想為他/她的創作獲得永久的收益（版稅），會發生什么？這不是一個容易解決的問題，版稅
美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

今天，Billboard宣布與流行的NFT頭像集World of Women（WoW）建立新的伙伴關系，向NFT生態系統又邁進了一步。在這次合作中，WoW的創建者Yam Karkai將幫助這個音樂行業巨
如何在元宇宙中建立品牌忠誠度

Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點？他們都投資于元宇宙的房地產。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
爆發在即的Layer2賽道百花齊放，誰將是領跑者？

還記得幾年前最早我們提起ETH擴容，首先想到就是Layer2，而Layer2里，首先想到的是閃電網絡，狀態通道，Plasma…然后折騰了幾年，發現并沒有什么用，許多項目方和資本也等不

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

AI“推理”模型興起，基準測試成本飆升

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

元宇宙將會如何塑造未來的工作方式？

完美世界被元宇宙“拒之門外”

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

藝術創作者能否永久收取版稅？

美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

如何在元宇宙中建立品牌忠誠度

爆發在即的Layer2賽道百花齊放，誰將是領跑者？

最新推薦

游戲玩家才是最“元宇宙”的

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

冰墩墩還能火多久？

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

多位全國政協委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

從NFT數字收藏，洞察數字音樂版權市場發展趨勢

猜你喜歡

熱門推薦

相關資訊