當前位置：首頁 > 元宇宙 > AI

Meta Llama 4口碑翻車：開源大模型競爭加劇下的失速之痛？

來源：責編：時間：2025-04-09 07:27:20 44觀看

導讀在人工智能領域，開源大模型Llama 4的發布風波持續發酵，引發廣泛關注和討論。4月8日，備受矚目的大模型評測平臺Chatbot Arena發表了一份措辭嚴厲的聲明，針對社群對meta新模型Llama 4排名的質疑，承諾將公開2000多場真人對比

在人工智能領域，開源大模型Llama 4的發布風波持續發酵，引發廣泛關注和討論。4月8日，備受矚目的大模型評測平臺Chatbot Arena發表了一份措辭嚴厲的聲明，針對社群對meta新模型Llama 4排名的質疑，承諾將公開2000多場真人對比測試的完整數據，并罕見地點名meta。

Chatbot Arena指出，meta應該更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一個針對人類偏好優化的定制化模型。平臺正在更新排行榜的策略，以避免此類混淆再次發生。這一聲明不僅是對當前事件的澄清，更是對整個大模型行業的一次警示。

Chatbot Arena由加州大學伯克利分校發起，通過真人盲測機制，讓開發者和AI愛好者在平臺上用相同問題向兩款模型提問，對比回答內容并投票打分。這種獨特的評測方式使其成為外界最為信賴的大模型排行榜之一。模型在Chatbot Arena排行榜的排名，直接影響其在媒體和開發者群體中的口碑與采納率。

因此，當meta在4月5日發布最新一代開源大模型Llama 4，并迅速沖上Chatbot Arena排行榜第二，僅次于Google前腳發布的Gemini 2.5 Pro時，引起了所有人的好奇和期待。然而，很快社區發現，這一版本是未公開、定制化調優的實驗模型，而非meta開源的正式版。爭議由此爆發：這是否構成“刷榜”？Chatbot Arena是否被利用為營銷工具？meta為何要如此操作？

不僅如此，在部分官方未展示的專業基準測試中，Llama 4的表現也不盡如人意，幾乎墊底。許多首批嘗試的用戶在Reddit等社交平臺上表達了失望，指出Llama 4在編程能力上的不足。有用戶提到：“考慮到Llama-4-Maverick有402B的參數量，我為什么不直接使用DeepSeek-V3-0324呢？或者Qwen-QwQ-32B可能更合適——雖然性能相似，但它的參數量只有32B。”

回溯至4月5日，meta在官方博客上宣布Llama 4系列模型面向社區開源，包括Llama 4 Scout、Llama 4 Maverick以及仍在訓練中的“教師模型”Llama 4 Behemoth，均首次采用混合專家（MoE）架構。其中，最受關注的Maverick版本擁有128個“專家”，170億活躍參數（總參數為4000億），meta將其描述為“同類最佳的多模態模型”。

然而，Llama 4發布后不久，情況便急轉直下。首批用戶對Llama 4的表現并不滿意，尤其是在需要代碼能力和嚴謹邏輯推理的場景中，Llama 4的表現并未兌現超越GPT、DeepSeek的承諾。在Aider Chat提供的Polyglot編程測試中，Maverick版本的正確率僅為16%，處于排行榜末尾，與其龐大的參數體量完全不符，甚至落后于規模更小的開源模型，如Google Gamma。

面對風評下滑和嚴厲質疑，meta團隊迅速出面澄清。經手“后訓練”的meta GenAI成員虞立成（Licheng Yu）表示，虛心聆聽各方反饋，并希望能在下一版有所提升。他強調，meta從未為了刷點而針對測試集進行過度擬合。同時，meta GenAI的副總裁Ahmad Al-Dahle也在社交媒體上明確表示，meta沒有在測試集上訓練Llama 4。

盡管這些回應試圖平息爭議，但Llama 4的真實能力仍備受質疑。作為開源陣營中曾經“最有希望挑戰OpenAI”的旗手，Llama 4原本承載著開發者與產業界的高度期待。然而，它在發布一周內便從“高光”跌入“信任危機”，成為大模型競賽中一次罕見的口碑“滑鐵盧”。

追根究底，Llama 4的問題不在于造假，而在于開源大模型競爭加劇下的失速。過去兩年，meta憑借Llama 2和Llama 3逐步在開源模型市場上建立起“領先、可靠”的認知。然而，隨著DeepSeek V3/R1的發布，開源與閉源模型的差距被扭轉，且開源模型的發展速度大大加快。這讓原本作為“開源領導者”的Llama面臨更大的壓力。

meta也未能控制住動作的變形。Llama-4-Maverick-03-26-Experimental針對對話模式的優化本身無可厚非，但“首發”Chatbot Arena的目的卻路人皆知。在參數規模膨脹、架構復雜化（MoE）的同時，Llama 4很可能沒有留出足夠的測試和改進時間，才導致發布后不穩定的性能表現。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

內容五巨頭盈利路：降本找增量，未來空間何在？

04-08

AI重塑旅行體驗，攜程同程飛豬等OTA平臺迎來新變革時代

然而這一版又過于專精于歷史文化，不是寺廟就是博物館遺址，景點的重復率高顯得有些許乏味，亮點是最后又拋出了新的旅游規劃，這樣可以一直根據用戶偏好不斷修正自己的回答，但也會給出太多重復信息讓人不忍再問。新識研…

04-08

尼康Zf固件2.00大升級：鳥類追蹤更精準，定焦鏡頭也能變焦！

04-08

阿里天貓精靈團隊打造AI智能眼鏡，2025年底或將驚艷亮相

04-08

AI“一本正經”說假話，誰該為信息真實性把關？

而當鋅刻度向DeepSeek提問“為什么AI會胡編亂造”以及如何解決時，其給出回答稱，AI生成內容時出現“胡編亂造”的現象，通常源于其技術原理的固有特點以及訓練數據的局限性，其中包括：數據過時——若訓練數據…

04-08

聲網商湯強強聯合，實時音視頻AI應用開啟新篇章

04-08

中美AI差距急劇縮小，美國領先地位不再穩固？

04-08

IBM z17大型機：以Telum II和Spyre芯片，引領生成式AI新時代

04-08

AI眼鏡新紀元：多模態能力引領DPVR AI Glasses走向未來

04-08

Arm《人工智能就緒指數報告》：企業AI實施新坐標何在？

04-08

神雲科技CITE25展現AI與云端計算創新方案，驅動數據中心效能升級

04-08

大模型時代來臨，阿丘科技如何以AI檢測引領工業視覺新變革？

04-08

AI眼鏡新寵Halliday大熱，炬芯科技端側芯片如何賦能智能體驗？

04-08

寧波普智未來機器人公司成立，智元機器人等攜手布局人工智能領域

04-08

NVIDIA豪擲數億收購Lepton AI，阿里前副總裁賈揚清團隊加入

04-08

點擊查看更多 +

全站最新

五菱技術大升級：新電池安全升級，智駕系統算力爆表，動力表現如何？

上汽通用五菱再發力，技術進化引領電智神車新時代！

小鵬X9煥新登場，39.98萬起售！新能源MPV市場競爭再升級

小米汽車接入Siri語音控制，解鎖、開后備箱等動動嘴即可完成

比亞迪一季度純電銷量領跑全球，再度奪冠特斯拉居次

豪車降價潮來襲！寶馬5系直逼30萬大關，多品牌“一口價”跟進

熱門內容

某大廠大模型高管涉婚變，公司賬號停用引熱議
美團等巨頭聯手投資硅基流動，共筑生成式AI設施新藍圖
00后主播借AI工具DeepSeek，直播單日狂攬3.3億銷售額！
華為Pura X震撼發布：獨特“闊折疊”形態，售價7499元起引領新潮流！
立陶宛高校：學生不當使用AI，學術不端遭開除
AI大模型時代，文科生將何去何從？
夸克全新升級：AI超級框，你的全能助手來了！
Ollama部署DeepSeek隱患多？騰云悅智安全實驗室教你如何加固防護！
阿里新夸克AI超級框上線，能否撼動騰訊元寶的AI入口地位？
英偉達推出DGX Spark與Station個人AI超算，Spark版售3000美元起
百度文心大模型4.5及X1正式發布，全面免費開放，性能對標國際前沿
315曝光信息黑洞后，遼寧云企智能科技經營異常被列入名錄
比爾·蓋茨展望：AI將深度改造行業，人類生來不為工作？
谷歌開源Gemma-3多模態大模型，性能強勁媲美業界頂尖
阿里新夸克：AI超級框能否引領移動互聯網新入口？

本欄最新

內容五巨頭盈利路：降本找增量，未來空間何在？

AI重塑旅行體驗，攜程同程飛豬等OTA平臺迎來新變革時代

尼康Zf固件2.00大升級：鳥類追蹤更精準，定焦鏡頭也能變焦！

阿里天貓精靈團隊打造AI智能眼鏡，2025年底或將驚艷亮相

AI“一本正經”說假話，誰該為信息真實性把關？

中美AI差距急劇縮小，美國領先地位不再穩固？

本文鏈接：http://www.www897cc.com/showinfo-45-12070-0.htmlMeta Llama 4口碑翻車：開源大模型競爭加劇下的失速之痛？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌“帶薪禁業”留人才，AI巨頭競爭下員工卻陷兩難？

下一篇：內容五巨頭盈利路：降本找增量，未來空間何在？

標簽：

熱門焦點

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

此前，亞馬遜云科技發布多款AIGC產品，其中包括AI大模型服務Amazon Bedrock、人工智能計算實例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、軟件
25萬虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬，抵達繁星》在大有空間APP
字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞，“得不到的永遠在騷動”，這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起，使得頭部游戲大廠感受
中國銀保監管委提示：謹慎投資，勿做接盤俠

中國銀保監管委，發布一則風險提示，內容圍繞防范以“元宇宙”名義進行的非法集資風險。原文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名
2022年的Web3：定義概念并開創新范式

Web3 是關于加密和區塊鏈應該如何使用的概念，因為它是加密圈的一個離散子領域。社區機會將呈指數級增長，擴大這些子行業的人口統計范圍。追求 Web3 項目的組織仍
以太坊升級將會帶來的5個改變

以太坊自2015年誕生以來就廣受歡迎，但最近其昂貴的交易費用和低可擴展性對執行復雜的應用程序產生了負面作用，用戶對以太坊改進的需求也日益急迫。以太坊2.0已進
影響元宇宙土地價格的五個因素

參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數，以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
元宇宙社交時代，華麗歸來的超級QQ秀重構虛擬社交場景

作者:狂人不知不覺間，QQ已經迎來了第23個生日。作為國內社交平臺的起點，QQ可謂是睥睨全網，不僅有龐大的用戶群體，還將虛擬形象及QQ整合成在線虛擬社區，開啟了時髦
用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

你可能聽說過不可偽造的代幣，或NFTs。NFTs是數字代幣，代表完全獨特的項目的所有權；存儲在區塊鏈中并可追蹤，它們不能被修改、替換或復制。作為NFT鑄造的資產在數字

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta Llama 4口碑翻車：開源大模型競爭加劇下的失速之痛？

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

25萬虛擬er在“元宇宙”追星

字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

中國銀保監管委提示：謹慎投資，勿做接盤俠

2022年的Web3：定義概念并開創新范式

以太坊升級將會帶來的5個改變

影響元宇宙土地價格的五個因素

元宇宙社交時代，華麗歸來的超級QQ秀重構虛擬社交場景

用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

最新推薦

“元宇宙第一股”Roblox緣何被資本市場看“低”？

餐桌上怎么變出元宇宙？

影響元宇宙土地價格的五個因素

又一家數字營銷公司入局元宇宙，國內首個藝術元宇宙社區“Meta彼岸”上線

元宇宙不完全是想出來的，而是實打實做出來的

全球十大元宇宙概念游戲

猜你喜歡

熱門推薦

相關資訊