日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

AI“推理”模型興起,基準(zhǔn)測試成本飆升

來源: 責(zé)編: 時間:2025-04-15 07:12:14 52觀看
導(dǎo)讀 4 月 13 日消息,隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢卻伴隨著高昂的測試

4 月 13 日消息,隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢卻伴隨著高昂的測試成本,使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。ArN28資訊網(wǎng)——每日最新資訊28at.com

ArN28資訊網(wǎng)——每日最新資訊28at.com

據(jù)第三方 AI 測試機(jī)構(gòu)“人工智能分析”(Artificial Analysis)提供的數(shù)據(jù)顯示,評估 OpenAI 的 o1 推理模型在七個流行的 AI 基準(zhǔn)測試(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表現(xiàn),需要花費(fèi) 2767.05 美元(注:現(xiàn)匯率約合 20191 元人民幣)。而評估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元(現(xiàn)匯率約合 10839 元人民幣),相比之下,測試 OpenAI 的 o3-mini-high 則只需 344.59 美元(現(xiàn)匯率約合 2514 元人民幣)。盡管有些推理模型的測試成本相對較低,例如評估 OpenAI 的 o1-mini 只需 141.22 美元(現(xiàn)匯率約合 1030 元人民幣),但從整體來看,推理模型的測試成本仍然比較高昂。截至目前,“人工智能分析”已經(jīng)花費(fèi)了約 5200 美元(現(xiàn)匯率約合 37945 元人民幣)來評估大約十幾種推理模型,這一金額接近該公司分析超過 80 種非推理模型所花費(fèi)的 2400 美元的兩倍。ArN28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 在 2024 年 5 月發(fā)布的非推理 GPT-4o 模型,其評估成本僅為 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的評估成本為 81.41 美元。“人工智能分析”聯(lián)合創(chuàng)始人喬治?卡梅倫(George Cameron)向 TechCrunch 表示,隨著越來越多的 AI 實(shí)驗(yàn)室開發(fā)推理模型,該組織計劃增加其測試預(yù)算。“在‘人工智能分析’,我們每月進(jìn)行數(shù)百次評估,并為此投入了相當(dāng)可觀的預(yù)算,”卡梅倫說,“我們預(yù)計隨著模型的頻繁發(fā)布,這一支出將會增加。”ArN28資訊網(wǎng)——每日最新資訊28at.com

“人工智能分析”并非唯一面臨 AI 測試成本上升的機(jī)構(gòu)。AI 初創(chuàng)公司“通用推理”(General Reasoning)的首席執(zhí)行官羅斯?泰勒(Ross Taylor)表示,他最近花費(fèi)了 580 美元用大約 3700 個獨(dú)特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計,僅對 MMLU Pro(一套旨在評估模型語言理解能力的問題集)進(jìn)行一次完整的測試,成本就會超過 1800 美元。“我們正在邁向一個世界,在這個世界里,一個實(shí)驗(yàn)室在一項(xiàng)基準(zhǔn)測試中報告 x% 的結(jié)果,而他們在其中花費(fèi)了 y 數(shù)量的計算資源,但學(xué)者們的資源遠(yuǎn)遠(yuǎn)小于 y,”泰勒在 X 上最近的一篇帖子中寫道,“沒有人能夠復(fù)制這些結(jié)果。”ArN28資訊網(wǎng)——每日最新資訊28at.com

那么,為什么推理模型的測試成本如此之高呢?主要原因在于它們生成了大量的 token。token 代表原始文本的片段,例如將單詞“fantastic”拆分為音節(jié)“fan”、“tas”和“tic”。據(jù)“人工智能分析”稱,在該公司的基準(zhǔn)測試中,OpenAI 的 o1 生成了超過 4400 萬個 token,大約是 GPT-4o 生成量的八倍。大多數(shù) AI 公司都是按 token 收費(fèi)的,因此成本很容易就會累積起來。ArN28資訊網(wǎng)——每日最新資訊28at.com

此外,現(xiàn)代基準(zhǔn)測試通常會從模型中引出大量 token,因?yàn)樗鼈儼婕皬?fù)雜、多步驟任務(wù)的問題。Epoch AI 的高級研究員讓-斯坦尼斯拉斯?德內(nèi)恩(Jean-Stanislas Denain)表示,這是因?yàn)榻裉斓幕鶞?zhǔn)測試更加復(fù)雜,盡管每個基準(zhǔn)測試的問題數(shù)量總體有所減少。“它們通常試圖評估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力,例如編寫和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)以及使用計算機(jī),”德內(nèi)恩稱。德內(nèi)恩還指出,最昂貴的模型隨著時間的推移,每個 token 的成本也在增加。例如,Anthropic 在 2024 年 5 月發(fā)布的 Claude 3 Opus 是當(dāng)時最昂貴的模型,每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時候推出的 GPT-4.5 和 o1-pro,每百萬輸出 token 的成本分別為 150 美元和 600 美元。ArN28資訊網(wǎng)——每日最新資訊28at.com

“盡管隨著時間的推移,模型的性能有所提高,達(dá)到給定性能水平的成本也確實(shí)大幅下降,但如果你想在任何特定時間評估最大最好的模型,你仍然需要支付更多,”德內(nèi)恩說。許多 AI 實(shí)驗(yàn)室,包括 OpenAI,為測試目的向基準(zhǔn)測試組織提供免費(fèi)或補(bǔ)貼的模型訪問權(quán)限。但一些專家表示,這會影響測試結(jié)果的公正性 —— 即使沒有操縱的證據(jù),AI 實(shí)驗(yàn)室的參與本身就可能損害評估評分的完整性。ArN28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12237-0.htmlAI“推理”模型興起,基準(zhǔn)測試成本飆升

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 蘋果AI發(fā)展滯后真相:預(yù)算削減與內(nèi)部斗爭成主因

下一篇: 美國教育部長出席峰會鬧烏龍:多次將 AI 誤稱為 A1

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 龙泉市| 桃源县| 塔河县| 耿马| 常山县| 东乌珠穆沁旗| 电白县| 梅河口市| 岳池县| 施秉县| 瑞昌市| 鹤庆县| 鄂温| 顺义区| 霞浦县| 建水县| 河津市| 临邑县| 博爱县| 锦屏县| 韶山市| 嘉禾县| 昭觉县| 英德市| 攀枝花市| 岑巩县| 古丈县| 皋兰县| 奉贤区| 乌兰浩特市| 东平县| 达日县| 翁源县| 宣武区| 定远县| 泾源县| 淳化县| 成都市| 永安市| 宾川县| 厦门市|