當(dāng)前位置：首頁 > 元宇宙 > AI

Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌，此前被質(zhì)疑刷榜作弊

來源：責(zé)編：時(shí)間：2025-04-16 07:18:56 81觀看

導(dǎo)讀 4 月 14 日消息，LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名，其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對(duì) Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑

4 月 14 日消息，LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名，其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對(duì) Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑。

4 月 6 日，Meta 發(fā)布了最新的大模型 Llama 4，包含 Scout、Maverick 和 Behemoth 三個(gè)版本。其中，Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二，僅次于 Gemini 2.5 Pro。然而，隨著開發(fā)者實(shí)際使用 Llama 4 大模型開源版的效果陸續(xù)曝光，Llama 4 的口碑急轉(zhuǎn)直下。有開發(fā)者發(fā)現(xiàn) Meta 提供給 LMArena 的 Llama 4 版本與提交給社區(qū)的開源版本不同，因而質(zhì)疑 Meta 刷榜作弊。

4 月 8 日，Chatbot Arena 官方發(fā)文確認(rèn)了用戶的上述質(zhì)疑，公開表示 Meta 提供給他們的是“特供版”，并考慮更新排行榜。根據(jù) Chatbot Arena 官方消息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一個(gè)實(shí)驗(yàn)性聊天優(yōu)化版本，當(dāng)時(shí)該版本的排名為第二。修正后的模型為 HuggingFace 開源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活參數(shù)、128 個(gè) MoE 專家的指令微調(diào)模型。

注意到，目前開源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名為 32 名，遠(yuǎn)低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至連英偉達(dá)基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 為何表現(xiàn)不佳？該公司在上周六發(fā)布的一張圖表中解釋稱，該模型是“針對(duì)對(duì)話性進(jìn)行優(yōu)化”的。這些優(yōu)化顯然在 LM Arena 上取得了不錯(cuò)的效果，因?yàn)?LM Arena 的人類評(píng)分者會(huì)比較不同模型的輸出，并選擇他們更偏好的結(jié)果。

由于各種原因，LM Arena 從未被視為衡量 AI 模型性能的最可靠指標(biāo)。盡管如此，針對(duì)基準(zhǔn)測試調(diào)整模型不僅具有誤導(dǎo)性，還使得開發(fā)者難以準(zhǔn)確預(yù)測該模型在不同場景下的表現(xiàn)。

Meta 的一位發(fā)言人向 TechCrunch 表示，Meta 會(huì)嘗試“各種類型的定制變體”。“‘Llama-4-Maverick-03-26-Experimental’是我們嘗試的一個(gè)針對(duì)聊天優(yōu)化的版本，它在 LM Arena 上也表現(xiàn)不錯(cuò)，”該發(fā)言人說，“我們現(xiàn)在已發(fā)布了開源版本，將看看開發(fā)者如何根據(jù)自己的使用案例定制 Llama 4。我們期待看到他們構(gòu)建的內(nèi)容，并期待他們持續(xù)的反饋。”

本文鏈接：http://www.www897cc.com/showinfo-45-12275-0.htmlMeta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌，此前被質(zhì)疑刷榜作弊

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：單圖直出 CAD 工程文件，新研究解決 AI 生成 3D 模型“不可編輯”痛點(diǎn)

下一篇： OpenAI CEO 奧爾特曼：DeepSeek 并未影響 GPT 的增長，將推更好的開源模型

標(biāo)簽：

熱門焦點(diǎn)

數(shù)字虛擬人23年最新變化！

作者：小資來源：米塔之家自2021年元宇宙“爆炸”后，作為現(xiàn)實(shí)世界連接元宇宙的媒介之一，大批虛擬人跑步入場。到了2022年底，據(jù)天眼查數(shù)據(jù)顯示，我國目前企業(yè)名稱或經(jīng)營范圍
AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

作者：劉曠自2023年開年以來，AI大模型這股風(fēng)是越吹越猛烈了。隨著ChatGPT的出圈爆火，再度掀起了一波AI熱浪，無論是在國內(nèi)還是國外都有不少企業(yè)宣布入局或者跟進(jìn)AI大模型領(lǐng)域。與
企業(yè)熱、用戶冷，元宇宙第一站將是“營銷場”？

如果說2021年底什么最火熱，那元宇宙當(dāng)之無愧。“萬物皆可元宇宙”似乎成為新的流行語，在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日，有消息傳
2022 區(qū)塊鏈 50 強(qiáng)榜單；垃圾NFT項(xiàng)目的十三個(gè)特性

本期關(guān)鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發(fā)行齊白石畫作數(shù)字藏品；Ripple成為數(shù)字歐元協(xié)會(huì)成員；Gem上線稀有度排名功能；2022 區(qū)塊鏈 50 強(qiáng)榜
2022年中國元宇宙系列報(bào)告：底層架構(gòu)研究：虛擬引擎，擎動(dòng)未來

“虛擬引擎是元宇宙平臺(tái)搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強(qiáng)大的處理能力，能夠高效快速的實(shí)現(xiàn)大量交互場
中國銀保監(jiān)管委提示：謹(jǐn)慎投資，勿做接盤俠

中國銀保監(jiān)管委，發(fā)布一則風(fēng)險(xiǎn)提示，內(nèi)容圍繞防范以“元宇宙”名義進(jìn)行的非法集資風(fēng)險(xiǎn)。原文如下：近期，一些不法分子蹭熱點(diǎn)，以“元宇宙投資項(xiàng)目”“元宇宙鏈游”等名
2021年中國元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

元宇宙網(wǎng)絡(luò)熱度高漲，中國網(wǎng)民對(duì)虛擬生態(tài)興趣濃厚。艾媒咨詢數(shù)據(jù)顯示，超六成的網(wǎng)民對(duì)“元宇宙”了解程度較高，在元宇宙較基礎(chǔ)的游戲領(lǐng)域，超九成的人對(duì)VR游戲更感興
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關(guān)注。許多人愿意為數(shù)字藝術(shù)支付數(shù)百萬美元，世界正在走向數(shù)字化。報(bào)告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
就業(yè)年齡歧視如何解決？來Web3看看

上周，我突然想到我的第一份工作實(shí)際上是在為一家失敗的航空公司制定破產(chǎn)退出計(jì)劃，那年我們的協(xié)議實(shí)習(xí)生剛出生。在一陣恐慌后，我又花了一點(diǎn)時(shí)間反思我這個(gè)擁有近1

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌，此前被質(zhì)疑刷榜作弊

數(shù)字虛擬人23年最新變化！

AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

企業(yè)熱、用戶冷，元宇宙第一站將是“營銷場”？

2022 區(qū)塊鏈 50 強(qiáng)榜單；垃圾NFT項(xiàng)目的十三個(gè)特性

2022年中國元宇宙系列報(bào)告：底層架構(gòu)研究：虛擬引擎，擎動(dòng)未來

中國銀保監(jiān)管委提示：謹(jǐn)慎投資，勿做接盤俠

2021年中國元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

就業(yè)年齡歧視如何解決？來Web3看看

最新推薦

歐盟人工智能法案：四種AI系統(tǒng)風(fēng)險(xiǎn)類型的劃分及監(jiān)管措施

拯救XR，蘋果力不從心

數(shù)字人的新革命，BAT的“沖高”戰(zhàn)場

元宇宙將會(huì)如何塑造未來的工作方式？

Meta、谷歌、微軟競相涌入元宇宙，小型企業(yè)該如何伺機(jī)而動(dòng)？

Terra鏈上TVL躍升至第二

猜你喜歡

熱門推薦

相關(guān)資訊