日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 測評

新測試基準發布 最強開源Llama 3尷尬了

來源: 責編: 時間:2024-04-23 09:13:14 164觀看
導讀 如果試題太簡單,學霸和學渣都能考90分,拉不開差距……隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。大模型競技場背后組織LMSYS推出下

如果試題太簡單,學霸和學渣都能考90分,拉不開差距……CDz28資訊網——每日最新資訊28at.com

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。CDz28資訊網——每日最新資訊28at.com

大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。CDz28資訊網——每日最新資訊28at.com

Llama 3的兩個指令微調版本實力到底如何,也有了最新參考。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。CDz28資訊網——每日最新資訊28at.com

Arena-Hard利用競技場實時人類數據構建,與人類偏好一致率也高達89.1%。CDz28資訊網——每日最新資訊28at.com

除了上面兩個指標都達到SOTA之外,還有一個額外的好處:CDz28資訊網——每日最新資訊28at.com

實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的數據泄露。CDz28資訊網——每日最新資訊28at.com

并且新模型發布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可得到結果。CDz28資訊網——每日最新資訊28at.com

有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

新基準測試如何運作?CDz28資訊網——每日最新資訊28at.com

簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。CDz28資訊網——每日最新資訊28at.com

首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界話題。CDz28資訊網——每日最新資訊28at.com

為了確保這一點,團隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用 UMAP 降低維度,并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識別聚類,最后使用GPT-4-turbo進行匯總。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

同時確保入選的提示詞具有高質量,有七個關鍵指標來衡量:CDz28資訊網——每日最新資訊28at.com

-具體性:提示詞是否要求特定的輸出?CDz28資訊網——每日最新資訊28at.com

-領域知識:提示詞是否涵蓋一個或多個特定領域?CDz28資訊網——每日最新資訊28at.com

-復雜性:提示詞是否有多層推理、組成部分或變量?CDz28資訊網——每日最新資訊28at.com

-解決問題:提示詞是否直接讓AI展示主動解決問題的能力?CDz28資訊網——每日最新資訊28at.com

-創造力:提示詞是否涉及解決問題的一定程度的創造力?CDz28資訊網——每日最新資訊28at.com

-技術準確性:提示詞是否要求響應具有技術準確性?CDz28資訊網——每日最新資訊28at.com

-實際應用:提示詞是否與實際應用相關?CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據提示的平均得分給每個聚類評分。CDz28資訊網——每日最新資訊28at.com

高質量的問題通常與有挑戰性的話題或任務相關,比如游戲開發或數學證明。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

新基準測試準嗎?CDz28資訊網——每日最新資訊28at.com

Arena-Hard目前還有一個弱點:使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。CDz28資訊網——每日最新資訊28at.com

可以看出,最新兩個版本的GPT-4分數高過Claude 3 Opus一大截,但在人類投票分數中差距并沒有那么明顯。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

其實關于這一點,最近已經有研究論證,前沿模型都會偏好自己的輸出。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

研究團隊還發現,AI天生就可以判斷出一段文字是不是自己寫的,經過微調后自我識別的能力還能增強,并且自我識別能力與自我偏好線性相關。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

那么使用Claude 3來打分會使結果產生什么變化?LMSYS也做了相關實驗。CDz28資訊網——每日最新資訊28at.com

首先,Claude系列的分數確實會提高。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。CDz28資訊網——每日最新資訊28at.com

總體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

所以也有很多網友建議,使用多個大模型來綜合打分。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

除此之外,團隊還做了更多消融實驗來驗證新基準測試的有效性。CDz28資訊網——每日最新資訊28at.com

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。CDz28資訊網——每日最新資訊28at.com

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分數提升就不明顯。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

此外在實驗過程中還有很多有意思的發現。CDz28資訊網——每日最新資訊28at.com

比如GPT-4來打分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。CDz28資訊網——每日最新資訊28at.com

對于代碼問題,Claude 3傾向于提供簡單結構、不依賴外部代碼庫,能幫助人類學習編程的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。CDz28資訊網——每日最新資訊28at.com

另外即使設置溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。CDz28資訊網——每日最新資訊28at.com

從層次結構可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質量和多樣性確實是高。CDz28資訊網——每日最新資訊28at.com

新測試基準發布 最強開源Llama 3尷尬了CDz28資訊網——每日最新資訊28at.com

這里面也許就有你的貢獻。CDz28資訊網——每日最新資訊28at.com

Arena-Hard GitHub:CDz28資訊網——每日最新資訊28at.com

https://github.com/lm-sys/arena-hardCDz28資訊網——每日最新資訊28at.com

Arena-Hard HuggingFace:CDz28資訊網——每日最新資訊28at.com

https://huggingface.co/spaces/lmsys/arena-hard-browserCDz28資訊網——每日最新資訊28at.com

大模型競技場:CDz28資訊網——每日最新資訊28at.com

https://arena.lmsys.orgCDz28資訊網——每日最新資訊28at.com

參考鏈接:CDz28資訊網——每日最新資訊28at.com

[1]https://x.com/lmsysorg/status/1782179997622649330CDz28資訊網——每日最新資訊28at.com

[2]https://lmsys.org/blog/2024-04-19-arena-hard/CDz28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-25-84608-0.html新測試基準發布 最強開源Llama 3尷尬了

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 提車三天特斯拉中國突然降價一萬四 車主:太疼了!

下一篇: 小米平板6S Pro評測:小米平板的最終形態

標簽:
  • 熱門焦點
  • 太卷!Redmi MAX 100英寸電視便宜了:12999元買Redmi史上最大屏

    8月5日消息,從小米商城了解到,Redmi MAX 100英寸巨屏電視日前迎來官方優惠,到手價12999元,比發布價便宜了7000元,在大屏電視市場開卷。據了解,Redmi MAX 100
  • Automa-通過連接塊來自動化你的瀏覽器

    1、前言通過瀏覽器插件可實現自動化腳本的錄制與編寫,具有代表性的工具就是:Selenium IDE、Katalon Recorder,對于簡單的業務來說可快速實現自動化的上手工作。Selenium IDEKat
  • K8S | Service服務發現

    一、背景在微服務架構中,這里以開發環境「Dev」為基礎來描述,在K8S集群中通常會開放:路由網關、注冊中心、配置中心等相關服務,可以被集群外部訪問;圖片對于測試「Tes」環境或者
  • 在線圖片編輯器,支持PSD解析、AI摳圖等

    自從我上次分享一個人開發仿造稿定設計的圖片編輯器到現在,不知不覺已過去一年時間了,期間我經歷了裁員失業、面試找工作碰壁,寒冬下一直沒有很好地履行計劃.....這些就放在日
  • 中國家電海外掘金正當時|出海專題

    作者|吳南南編輯|胡展嘉運營|陳佳慧出品|零態LT(ID:LingTai_LT)2023年,出海市場戰況空前,中國創業者在海外紛紛摩拳擦掌,以期能夠把中國的商業模式、創業理念、戰略打法輸出海外,他們依
  • 騰訊蓋樓,字節拆墻

    來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之“想重溫暴刷深淵、30+技能搭配暴搓到爽的游戲體驗嗎?一起上晶核,即刻暴打!”曾憑借直播騰訊旗下代理格斗游戲《DNF》一
  • 新電商三兄弟,“抖快紅”成團!

    來源:價值研究所作 者:Hernanderz 隨著內容電商的概念興起,抖音、快手、小紅書組成的“新電商三兄弟”成為業內一股不可忽視的勢力,給阿里、京東、拼多多帶去了巨大壓
  • iQOO 11S新品發布會

    iQOO將在7月4日19:00舉行新品發布會,推出杭州亞運會電競賽事官方用機iQOO 11S。
  • 華為舉行春季智慧辦公新品發布會 首次推出電子墨水屏平板

    北京時間2月27日晚,華為在巴塞羅那舉行春季智慧辦公新品發布會,在海外市場推出之前已經在中國市場上市的筆記本、平板、激光打印機等辦公產品,并首次推出搭載
Top 主站蜘蛛池模板: 麻栗坡县| 阿尔山市| 汤阴县| 滨海县| 清流县| 香港 | 玉田县| 那曲县| 修武县| 寿宁县| 科技| 清镇市| 阳信县| 武义县| 宜良县| 抚宁县| 呼伦贝尔市| 什邡市| 桃源县| 诸城市| 澄江县| 华蓥市| 辽宁省| 安乡县| 衡东县| 留坝县| 徐水县| 新泰市| 广州市| 宜昌市| 龙口市| 六枝特区| 渭源县| 刚察县| 晋江市| 桃园县| 天门市| 普兰县| 潍坊市| 绵阳市| 工布江达县|