當前位置：首頁 > 科技 > 測評

新測試基準發布最強開源Llama 3尷尬了

來源：責編：時間：2024-04-23 09:13:14 184觀看

導讀如果試題太簡單，學霸和學渣都能考90分，拉不開差距……隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布，業界急需一款更難、更有區分度的基準測試。大模型競技場背后組織LMSYS推出下

如果試題太簡單，學霸和學渣都能考90分，拉不開差距……

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布，業界急需一款更難、更有區分度的基準測試。

大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard，引起廣泛關注。

Llama 3的兩個指令微調版本實力到底如何，也有了最新參考。

新測試基準發布最強開源Llama 3尷尬了

與之前大家分數都相近的MT Bench相比，Arena-Hard區分度從22.6%提升到87.4%，孰強孰弱一目了然。

Arena-Hard利用競技場實時人類數據構建，與人類偏好一致率也高達89.1%。

除了上面兩個指標都達到SOTA之外，還有一個額外的好處：

實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞，減輕潛在的數據泄露。

并且新模型發布后，無需再等待一周左右時間讓人類用戶參與投票，只需花費25美元快速運行測試管線，即可得到結果。

有網友評價，使用真實用戶提示詞而不是高中考試來測試，真的很重要。

新測試基準發布最強開源Llama 3尷尬了

新基準測試如何運作？

簡單來說，通過大模型競技場20萬個用戶查詢中，挑選500個高質量提示詞作為測試集。

首先，挑選過程中確保多樣性，也就是測試集應涵蓋廣泛的現實世界話題。

為了確保這一點，團隊采用BERTopic中主題建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉換每個提示，使用 UMAP 降低維度，并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識別聚類，最后使用GPT-4-turbo進行匯總。

新測試基準發布最強開源Llama 3尷尬了

同時確保入選的提示詞具有高質量，有七個關鍵指標來衡量：

-具體性：提示詞是否要求特定的輸出？

-領域知識：提示詞是否涵蓋一個或多個特定領域？

-復雜性：提示詞是否有多層推理、組成部分或變量？

-解決問題：提示詞是否直接讓AI展示主動解決問題的能力？

-創造力：提示詞是否涉及解決問題的一定程度的創造力？

-技術準確性：提示詞是否要求響應具有技術準確性？

-實際應用：提示詞是否與實際應用相關？

新測試基準發布最強開源Llama 3尷尬了

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋，判斷滿足多少個條件。然后根據提示的平均得分給每個聚類評分。

高質量的問題通常與有挑戰性的話題或任務相關，比如游戲開發或數學證明。

新測試基準發布最強開源Llama 3尷尬了

新基準測試準嗎？

Arena-Hard目前還有一個弱點：使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。

可以看出，最新兩個版本的GPT-4分數高過Claude 3 Opus一大截，但在人類投票分數中差距并沒有那么明顯。

新測試基準發布最強開源Llama 3尷尬了

其實關于這一點，最近已經有研究論證，前沿模型都會偏好自己的輸出。

新測試基準發布最強開源Llama 3尷尬了

研究團隊還發現，AI天生就可以判斷出一段文字是不是自己寫的，經過微調后自我識別的能力還能增強，并且自我識別能力與自我偏好線性相關。

新測試基準發布最強開源Llama 3尷尬了

那么使用Claude 3來打分會使結果產生什么變化？LMSYS也做了相關實驗。

首先，Claude系列的分數確實會提高。

新測試基準發布最強開源Llama 3尷尬了

但令人驚訝的是，它更喜歡幾種開放模型如Mixtral和零一萬物Yi，甚至對GPT-3.5的評分都有明顯提高。

總體而言，使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。

新測試基準發布最強開源Llama 3尷尬了

所以也有很多網友建議，使用多個大模型來綜合打分。

新測試基準發布最強開源Llama 3尷尬了

除此之外，團隊還做了更多消融實驗來驗證新基準測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分數確實會提高。

但把提示詞換成“喜歡閑聊”，平均輸出長度也有提高，但分數提升就不明顯。

新測試基準發布最強開源Llama 3尷尬了

此外在實驗過程中還有很多有意思的發現。

比如GPT-4來打分非常嚴格，如果回答中有錯誤會狠狠扣分；而Claude 3即使識別出小錯誤也會寬大處理。

對于代碼問題，Claude 3傾向于提供簡單結構、不依賴外部代碼庫，能幫助人類學習編程的答案；而GPT-4-Turbo更傾向最實用的答案，不管其教育價值如何。

另外即使設置溫度為0，GPT-4-Turbo也可能產生略有不同的判斷。

從層次結構可視化的前64個聚類中也可以看出，大模型競技場用戶的提問質量和多樣性確實是高。

新測試基準發布最強開源Llama 3尷尬了

這里面也許就有你的貢獻。

Arena-Hard GitHub：

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace：

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型競技場：

https://arena.lmsys.org

參考鏈接：

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04-19-arena-hard/

本文鏈接：http://www.www897cc.com/showinfo-25-84608-0.html新測試基準發布最強開源Llama 3尷尬了

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：提車三天特斯拉中國突然降價一萬四車主：太疼了！

下一篇：小米平板6S Pro評測：小米平板的最終形態

標簽：

熱門焦點

石頭自清潔掃拖機器人G10S評測：多年黑科技集大成之作懶人終極福音

科技圈經常能看到一個詞叫“縫合怪”，用來形容那些把好多功能或者外觀結合在一起的產品，通常這樣的詞是貶義詞，但如果真的是產品縫合的好、縫合的實用的話，那它就成了中性詞，今
2023年Q2用戶偏好榜：12+256G版本成新主流

3月份的性能榜、性價比榜和好評榜之后，就要輪到2023年的第二季度偏好榜了，上半年的新機潮已經過去，最明顯的肯定就是大內存和存儲的機型了，另外部分中端機也取消了屏幕塑料支架
分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS網站旨在為全球Office用戶提供豐富的高品質原創PPT模板、實用文檔、數據圖表及個性化定制服務。優點：OfficePLUS是微軟官方網站，囊括PPT模板、Word模
十個簡單但很有用的Python裝飾器

裝飾器（Decorators）是Python中一種強大而靈活的功能，用于修改或增強函數或類的行為。裝飾器本質上是一個函數，它接受另一個函數或類作為參數，并返回一個新的函數或類。它們通常用
使用AIGC工具提升安全工作效率

在日常工作中，安全人員可能會涉及各種各樣的安全任務，包括但不限于：開發某些安全工具的插件，滿足自己特定的安全需求；自定義github搜索工具，快速查找所需的安全資料、漏洞poc、exp
2299元起！iQOO Pad開啟預售：性能最強天璣平板

5月23日，iQOO如期舉行了新品發布會，除了首發安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發布會上推出了旗下首款平板電腦——iQOO Pad，其搭載了天璣
首發天璣9200+ iQOO Neo8系列發布首銷售價2299元起

2023年5月23日晚，iQOO Neo8系列正式發布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro強悍登場，限時售價3099元起；價位段最強性能手機iQOO Neo8同期上市
利用職權私自解除被封帳號 Meta開除20多名員工

11月18日消息，據外媒援引知情人士表示，過去一年時間內，Facebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內部系統以不當方式重置用戶帳號，其
Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

圖片來源：圖蟲創意日前，Meta創始人兼CEO 馬克·扎克伯發布公開信，宣布Meta計劃裁員超11000人，占其員工總數13%。他公開承認了自己的預判失誤：“不僅

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

新測試基準發布最強開源Llama 3尷尬了

石頭自清潔掃拖機器人G10S評測：多年黑科技集大成之作懶人終極福音

2023年Q2用戶偏好榜：12+256G版本成新主流

分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

十個簡單但很有用的Python裝飾器

使用AIGC工具提升安全工作效率

2299元起！iQOO Pad開啟預售：性能最強天璣平板

首發天璣9200+ iQOO Neo8系列發布首銷售價2299元起

利用職權私自解除被封帳號 Meta開除20多名員工

Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

最新推薦

猜你喜歡

熱門推薦

相關資訊

新測試基準發布 最強開源Llama 3尷尬了

最新推薦

猜你喜歡

熱門推薦

相關資訊

新測試基準發布最強開源Llama 3尷尬了