當前位置：首頁 > 元宇宙 > AI

LMArena公正性遭質疑：大型AI供應商是否享有不公優勢？

來源：責編：時間：2025-05-03 07:33:59 95觀看

導讀人工智能領域近期掀起了一場關于公共基準測試平臺公正性的熱議。LMArena，這一備受矚目的平臺，近期被指存在對大型供應商如OpenAI、谷歌及meta的潛在偏袒，引發了行業內的廣泛關注和爭議。LMArena平臺通過展示不同大型語言

人工智能領域近期掀起了一場關于公共基準測試平臺公正性的熱議。LMArena，這一備受矚目的平臺，近期被指存在對大型供應商如OpenAI、谷歌及meta的潛在偏袒，引發了行業內的廣泛關注和爭議。

LMArena平臺通過展示不同大型語言模型（LLM）的回復對比，并由用戶投票選出更優者，形成了一個在行業內被廣泛引用的模型性能排行榜。這一機制原本旨在提供一個公平、透明的評估環境，然而，最新的研究卻揭示了其排名系統可能存在的問題。

由Cohere Labs、普林斯頓大學和麻省理工學院的研究人員聯合進行的一項深入分析顯示，LMArena的排名可能受到了大型企業優勢的影響。這些企業被指能夠私下測試多個模型版本，并僅選擇性能最佳的版本進行展示，而其余的則被悄然移除。這種做法被稱為“分數游戲”，它使得排行榜上的模型更像是經過精心挑選的“優等生”。例如，meta在發布Llama4之前，據稱至少測試了27個內部版本，并在用戶批評后，部署了專門針對基準測試優化的版本。

研究還發現，大型供應商在獲取用戶數據方面擁有顯著優勢。通過API接口，它們能夠收集到大量的用戶與模型交互的數據，包括提示和偏好設置。然而，這些數據并未被公平地共享，OpenAI和谷歌的模型占據了絕大多數的用戶交互數據（占比高達61.4%）。這使得它們能夠利用更多的數據進行優化，甚至可能針對LMArena平臺進行專門優化，從而提升排名。

更令人擔憂的是，大量模型在未公開通知的情況下被從LMArena平臺移除，這對開源模型的影響尤為嚴重。在評估的243個模型中，有205個模型未經解釋就被停用，僅有47個模型被正式標記為棄用。這種缺乏透明度的模型移除機制，進一步加劇了排名的失真。

面對這些指控，LMArena團隊迅速做出回應，堅決否認存在偏袒行為。他們強調，其排名系統反映了數百萬真實的人類偏好，并認為提交前的測試是合法且必要的手段，旨在確定最符合用戶期望的模型變體。LMArena團隊還表示，他們僅依據最終公開發布的模型進行排名，且平臺的源代碼和數百萬用戶交互數據均已公開，以體現其開放的設計理念。

然而，盡管LMArena團隊做出了回應，但研究人員仍堅持認為平臺需要進行改革。他們呼吁LMArena公開所有測試過的模型變體、限制供應商單次提交的版本數量、確保模型在用戶之間更公平地分配，并對模型移除進行清晰記錄。他們警告說，如果缺乏更嚴格的監督，LMArena最終可能會獎勵那些針對排行榜進行策略性優化的模型，而非真正性能卓越的模型。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

扎克伯格詳解Llama 4與DeepSeek：AI未來多模態交互將更自然

他還提到DeepSeek底層優化出色，但目前仍是文本單模態，缺乏多模態能力，而Llama 4在多模態方面更具優勢。扎克伯格稱，預計未來12至18個月內，AI將自動化編寫大部分研究代碼，但基礎設施如計算與能源…

05-02

微博辟謠董某某不實傳聞，多賬號被禁言處理

但站方發現，廣大網友紛紛表達多元見解和真實觀點的同時，在各互聯網平臺已衍生出各類無端揣測、惡意關聯、利用AI編造故事甚至攻擊無關人士的內容，對此類通過蹭炒熱點、編造故事博取流量以及無故毀人聲譽的行為，站方依據…

05-01

中科院自動化所發布ScienceOne：一鍵生成文獻綜述，賦能智能科研

05-01

手機性能是否真過剩？深度剖析消費者需求與手機性能發展

05-01

微軟Phi-4推理模型發布，小型AI能否撼動大型模型地位？

05-01

英偉達黃仁勛：中美AI競爭激烈，華為實力強大不可忽視

05-01

徐州“黑科技”大揭秘，這些“大國重器”竟出自這座城！

05-01

英偉達CEO黃仁勛：華為無疑是全球頂尖科技公司之一

當地時間4月30日，美國英偉達公司總裁兼首席執行官黃仁勛在回答有關華為芯片技術問題時表示，“華為毫無疑問是全球最強大的科技公司之一，在計算技術、網絡技術和軟件能力方面強得令人難以置信，擁有推動人工智能（AI）…

05-01

特斯聯港股上市在即：2024年營收大增84%，融資6.6億在手訂單23億

05-01

特斯聯業績飆升，6.5億新資助力沖刺港股IPO

05-01

5月新機盛宴：OPPO、榮耀、聯想等中高端市場再掀波瀾！

05-01

Claude網頁版大升級：MCP定制鏈接來襲，第三方AI服務集成更靈活

05-01

黃仁勛盛贊華為：最強科技之一，競爭雖激烈但仍敬畏

05-01

微軟Q3財報亮點：云業務需求強勁，年底供應短缺仍樂觀應對

05-01

儲能新秀果下科技赴港上市，能否以“AI+儲能”戰略突圍？

2019年果下科技在江蘇成立，初期公司主要以歐洲戶用儲能市場為主戰場，2022年其歐洲收入占比超70%。其中，2024年來自智能儲能系統解決方案在去年貢獻了97.8%的收入，是公司最核心的增長主力軍以及業…

05-01

點擊查看更多 +

全站最新

小米五月服務周特惠：手機電池換新低至79.2元，家電清潔也有驚喜價！

特斯拉辟謠尋新CEO，力挺馬斯克繼續領航

StikDebug應用上線，iPhone和iPad用戶能暢玩GameCube和Wii游戲了？

蘋果AirPods新功能！專利獲批可監測呼吸速率，健康管理再升級

華為五月服務日福利多：免費貼膜保養，配件優惠享不停！

奧迪quattro四十五載傳奇：賽道上的技術圖騰與激情之旅

熱門內容

ChatGPT喊你名字了？用戶反應不一，個性化嘗試遭遇“恐怖谷”
螞蟻集團慷慨分紅，單季凈利達136億，阿里持股33%共享成果
華為4月新品大爆發：智能眼鏡鈦空版、門鎖2系列及星閃路由X1來襲
比爾·蓋茨展望：AI將深度改造行業，人類生來不為工作？
TIOBE 4月編程語言榜：Python穩居榜首，Kotlin、Ruby、Swift地位受挑戰
OPPO小布助手網頁版來襲，滿血版DeepSeek加持體驗升級！
中國首部規范AI氣象服務規章6月施行，氣象領域將迎來新變革！
華為三進制芯片專利公布：信息密度與計算效率能否迎來革命？
蘋果新款Apple TV 4K即將發布，四大升級能否重塑智能客廳體驗？
夸克AI超級框引領潮流，月活近1.5億成中國AI應用新霸主
百度聯盟25億激勵，智躍計劃賦能開發者，共筑AI新生態
谷歌Firebase Studio上線：AI云端IDE，輕松秒建多樣應用
小米16曝光：或將新增多功能按鍵，輕薄機身年底亮相？
華為HDC2025開發者大會6月來襲，早鳥票明日開搶，你準備好了嗎？
360納米AI新推MCP萬能箱，打造個性化智能體提升效率

本欄最新

微博辟謠董某某不實傳聞，多賬號被禁言處理

中科院自動化所發布ScienceOne：一鍵生成文獻綜述，賦能智能科研

手機性能是否真過剩？深度剖析消費者需求與手機性能發展

微軟Phi-4推理模型發布，小型AI能否撼動大型模型地位？

英偉達黃仁勛：中美AI競爭激烈，華為實力強大不可忽視

徐州“黑科技”大揭秘，這些“大國重器”竟出自這座城！

本文鏈接：http://www.www897cc.com/showinfo-45-12726-0.htmlLMArena公正性遭質疑：大型AI供應商是否享有不公優勢？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Meta智能眼鏡隱私新政：默認錄音引爭議，用戶控制權何在？

下一篇：扎克伯格詳解Llama 4與DeepSeek：AI未來多模態交互將更自然

標簽：

熱門焦點

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

作者：徐賜豪來源：區塊鏈日報據全國高校人工智能與大數據創新聯盟元宇宙專委會不完全統計，截至2023年7月，全國共有86所高校戰略布局元宇宙領域，其中本科院校73所，高職專科院校13所
元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

來源：清元宇宙炎炎夏日努力工作的Q仔的電腦都冒煙兒啦～今天要給大家介紹兩個新小伙伴——小元和小媧，他們將給大家解讀元媧2.7版本重磅更新內容～大家掌聲歡迎～～～本次更
韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預計，該公司在舊金山的辦事處今年將擴招人手，探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區塊鏈日報17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產業基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺Roblox出現違禁游
NFT：新騙局的狩獵場

騙局的自動化需要更好的防御，從數字身份開始。前幾天我在OpenSea上購買了一個NFT，是才華橫溢的藝術家海倫·福爾摩斯 (Helen Holmes) 的漫畫，來自她的 "原作 "收
NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

一些藝術家通過將他們的創作作為NFT出售而獲得了巨大收益。令人驚訝的是，許多賺取了數百萬美元的藝術家們仍在讀高中。這可能有點讓人難以置信。然而，請記住，在短
這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發揮作用

前米高梅首席執行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室，提供 NFT，讓持有者在制作中發揮作用Electromagnetic Productions 創始
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

近日，畢馬威正式發布其《初探元宇宙》報告，這也是畢馬威在元宇宙領域發布的首份報告。報告指出，元宇宙在以下十個領域的應用場景尤其值得期待，包括娛樂、社交、零

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

LMArena公正性遭質疑：大型AI供應商是否享有不公優勢？

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

NFT：新騙局的狩獵場

NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發揮作用

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

最新推薦

虛擬人再升級，企業可以解放雙手了？

城市數字孿生標準化白皮書（2022版）

紐約街頭出現NFT自動販賣機

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

NFT 技術將傳世之作帶入博物館

NFTs正迎來數十億美元的繁榮--NFT零工經濟從業者開始暴賺

猜你喜歡

熱門推薦

相關資訊