日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌,此前被質(zhì)疑刷榜作弊

來源: 責(zé)編: 時(shí)間:2025-04-16 07:18:56 43觀看
導(dǎo)讀 4 月 14 日消息,LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名,其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對 Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑

4 月 14 日消息,LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名,其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對 Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑。ztN28資訊網(wǎng)——每日最新資訊28at.com

ztN28資訊網(wǎng)——每日最新資訊28at.com

4 月 6 日,Meta 發(fā)布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三個(gè)版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,僅次于 Gemini 2.5 Pro。然而,隨著開發(fā)者實(shí)際使用 Llama 4 大模型開源版的效果陸續(xù)曝光,Llama 4 的口碑急轉(zhuǎn)直下。有開發(fā)者發(fā)現(xiàn) Meta 提供給 LMArena 的 Llama 4 版本與提交給社區(qū)的開源版本不同,因而質(zhì)疑 Meta 刷榜作弊。ztN28資訊網(wǎng)——每日最新資訊28at.com

ztN28資訊網(wǎng)——每日最新資訊28at.com

4 月 8 日,Chatbot Arena 官方發(fā)文確認(rèn)了用戶的上述質(zhì)疑,公開表示 Meta 提供給他們的是“特供版”,并考慮更新排行榜。根據(jù) Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一個(gè)實(shí)驗(yàn)性聊天優(yōu)化版本,當(dāng)時(shí)該版本的排名為第二。修正后的模型為 HuggingFace 開源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活參數(shù)、128 個(gè) MoE 專家的指令微調(diào)模型。ztN28資訊網(wǎng)——每日最新資訊28at.com

注意到,目前開源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名為 32 名,遠(yuǎn)低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至連英偉達(dá)基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。ztN28資訊網(wǎng)——每日最新資訊28at.com

Meta 的 Llama-4-Maverick-03-26-Experimental 為何表現(xiàn)不佳?該公司在上周六發(fā)布的一張圖表中解釋稱,該模型是“針對對話性進(jìn)行優(yōu)化”的。這些優(yōu)化顯然在 LM Arena 上取得了不錯(cuò)的效果,因?yàn)?LM Arena 的人類評分者會(huì)比較不同模型的輸出,并選擇他們更偏好的結(jié)果。ztN28資訊網(wǎng)——每日最新資訊28at.com

由于各種原因,LM Arena 從未被視為衡量 AI 模型性能的最可靠指標(biāo)。盡管如此,針對基準(zhǔn)測試調(diào)整模型不僅具有誤導(dǎo)性,還使得開發(fā)者難以準(zhǔn)確預(yù)測該模型在不同場景下的表現(xiàn)。ztN28資訊網(wǎng)——每日最新資訊28at.com

Meta 的一位發(fā)言人向 TechCrunch 表示,Meta 會(huì)嘗試“各種類型的定制變體”。“‘Llama-4-Maverick-03-26-Experimental’是我們嘗試的一個(gè)針對聊天優(yōu)化的版本,它在 LM Arena 上也表現(xiàn)不錯(cuò),”該發(fā)言人說,“我們現(xiàn)在已發(fā)布了開源版本,將看看開發(fā)者如何根據(jù)自己的使用案例定制 Llama 4。我們期待看到他們構(gòu)建的內(nèi)容,并期待他們持續(xù)的反饋。”ztN28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12275-0.htmlMeta 開源大模型 Llama-4-Maverick 基準(zhǔn)測試排名暴跌,此前被質(zhì)疑刷榜作弊

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 單圖直出 CAD 工程文件,新研究解決 AI 生成 3D 模型“不可編輯”痛點(diǎn)

下一篇: OpenAI CEO 奧爾特曼:DeepSeek 并未影響 GPT 的增長,將推更好的開源模型

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 视频| 郑州市| 许昌县| 进贤县| 伊川县| 威远县| 龙门县| 青州市| 金坛市| 卢龙县| 汉阴县| 奉节县| 莲花县| 陕西省| 华坪县| 资溪县| 延庆县| 公安县| 三都| 凤凰县| 万全县| 翁源县| 柳州市| 山西省| 游戏| 宁波市| 肥城市| 东方市| 城步| 定襄县| 连云港市| 磴口县| 沐川县| 郧西县| 乌审旗| 永德县| 平遥县| 汶川县| 灵川县| 庆安县| 林芝县|