當前位置：首頁 > 科技 > 互聯網

FlagEval大語言模型評測9月榜：Baichuan 2排名第一

來源：責編：時間：2023-09-20 21:55:01 381觀看

導讀 9月19日消息，繼SuperCLUE中文大模型評測基準8月榜單發布之后，國內又一權威評測體系FlagEval（天秤）公布最新9月榜單評測結果。FlagEval（天秤）是北京智源人工智能研究院推出的大模型評測體系及開放平

9月19日消息，繼SuperCLUE中文大模型評測基準8月榜單發布之后，國內又一權威評測體系FlagEval（天秤）公布最新9月榜單評測結果。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型評測體系及開放平臺，旨在建立科學、公正、開放的評測基準、方法、工具集，協助研究人員全方位評估基礎模型及訓練算法的性能。FlagEval 大語言模型評測體系當前包含6大評測任務，近30個評測數據集，超10萬道評測題目。

據悉，在9月評測中，FlagEval進行了評測框架升級，細化「安全與價值觀」與「推理能力」。依據最新版的能力框架，FlagEval 團隊同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主觀評測數據集題庫v2.0，題目數量擴充3倍，采用“多人‘背靠背’評測+第三方仲裁”的方式保證評測結果的一致性。

基于最新 CLCC v2.0主觀評測數據集，FlagEval（天秤）9月榜重點評測了近期大熱的 7 個開源對話模型。從整體結果來看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，準確率均超過 65%。

在基座模型榜單中，Baichuan 2、Qwen、InternLM、Aquila 的客觀評測結果表現均超越同參數量級的 Llama 及 Llama2 模型。

在 SFT 模型榜單中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。

另外，值得注意的是，在客觀評測兩個榜單中，Baichuan 2均表現出優異性能，基礎模型測試在中英文領域均全面超越Llama2。

本文鏈接：http://www.www897cc.com/showinfo-21-10600-0.htmlFlagEval大語言模型評測9月榜：Baichuan 2排名第一

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：周杰倫“騎”愛瑪電動車15年 “電量”耗盡了嗎？

下一篇：拉勾招聘聯合知乎啟動“2024秋招通關指南”

標簽：

熱門焦點

盧偉冰長文解析K60至尊版對Redmi有著里程碑式的意義

在今天的Redmi后性能時代戰略發布會結束之后，Redmi總經理盧偉冰又帶來了一篇長文，詳解了為什么 Redmi 要開啟后性能時代？為什么選擇和 MediaTek、Pixelworks 深度合作？以及后性
紅魔電競平板評測：大屏幕硬實力

前言：三年的疫情因為要上網課的原因激活了平板市場，如今網課的時代已經過去，大家的生活都恢復到了正軌，這也就意味著，真正考驗平板電腦生存的環境來了。也就是面對著這種殘酷的
Raft算法：保障分布式系統共識的穩健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可復制、可冗余、可容錯”）的首字母縮寫。Raft算法是一種用于在分布式系統
Rust中的高吞吐量流處理

作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫，還使用這些庫實現了一個流處理程序
小米MIX Fold 3下月亮相：今年唯一無短板的全能折疊屏

這段時間以來，包括三星、一加、榮耀等等有不少品牌旗下的最新折疊屏旗艦都有新的進展，其中榮耀、三星都已陸續發布了最新的折疊屏旗艦，尤其號榮耀Magi
iQOO 11S評測：行業唯一的200W標準版旗艦

【Techweb評測】去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，該機不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競
iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，iQOO 11不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競屏，同時在快充
朋友圈可以修改可見范圍了蘋果用戶可率先體驗

近日，iOS用戶迎來微信8.0.27正式版更新，除了可更換二維碼背景外，還新增了多項實用功能。在新版微信中，朋友圈終于可以修改可見范圍，簡單來說就是已發布的朋友圈
由于成本持續增加，筆記本產品價格預計將明顯上漲

根據知情人士透露，由于材料、物流等成本持續增加，筆記本產品價格預計將在2021年下半年有明顯上漲。進入6月下旬以來，全球半導體芯片缺貨情況加劇，顯卡、處理器

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

FlagEval大語言模型評測9月榜：Baichuan 2排名第一

盧偉冰長文解析K60至尊版對Redmi有著里程碑式的意義

紅魔電競平板評測：大屏幕硬實力

Raft算法：保障分布式系統共識的穩健之道

Rust中的高吞吐量流處理

小米MIX Fold 3下月亮相：今年唯一無短板的全能折疊屏

iQOO 11S評測：行業唯一的200W標準版旗艦

iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

朋友圈可以修改可見范圍了蘋果用戶可率先體驗

由于成本持續增加，筆記本產品價格預計將明顯上漲

最新推薦

猜你喜歡

熱門推薦

相關資訊