日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 互聯網

FlagEval大語言模型評測9月榜:Baichuan 2排名第一

來源: 責編: 時間:2023-09-20 21:55:01 381觀看
導讀 9月19日消息,繼SuperCLUE中文大模型評測基準8月榜單發布之后,國內又一權威評測體系FlagEval(天秤)公布最新9月榜單評測結果。FlagEval(天秤)是北京智源人工智能研究院推出的大模型評測體系及開放平

9月19日消息,繼SuperCLUE中文大模型評測基準8月榜單發布之后,國內又一權威評測體系FlagEval(天秤)公布最新9月榜單評測結果。oSJ28資訊網——每日最新資訊28at.com

FlagEval(天秤)是北京智源人工智能研究院推出的大模型評測體系及開放平臺,旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能。FlagEval 大語言模型評測體系當前包含6大評測任務,近30個評測數據集,超10萬道評測題目。oSJ28資訊網——每日最新資訊28at.com

據悉,在9月評測中,FlagEval進行了評測框架升級,細化「安全與價值觀」與「推理能力」。依據最新版的能力框架,FlagEval 團隊同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主觀評測數據集題庫v2.0,題目數量擴充3倍,采用“多人‘背靠背’評測+第三方仲裁”的方式保證評測結果的一致性。oSJ28資訊網——每日最新資訊28at.com

基于最新 CLCC v2.0主觀評測數據集,FlagEval(天秤)9月榜重點評測了近期大熱的 7 個開源對話模型。從整體結果來看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅,準確率均超過 65%。oSJ28資訊網——每日最新資訊28at.com

在基座模型榜單中,Baichuan 2、Qwen、InternLM、Aquila 的客觀評測結果表現均超越同參數量級的 Llama 及 Llama2 模型。oSJ28資訊網——每日最新資訊28at.com

在 SFT 模型榜單中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。oSJ28資訊網——每日最新資訊28at.com

另外,值得注意的是,在客觀評測兩個榜單中,Baichuan 2均表現出優異性能,基礎模型測試在中英文領域均全面超越Llama2。oSJ28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-21-10600-0.htmlFlagEval大語言模型評測9月榜:Baichuan 2排名第一

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 周杰倫“騎”愛瑪電動車15年 “電量”耗盡了嗎?

下一篇: 拉勾招聘聯合知乎啟動“2024秋招通關指南”

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 安化县| 深泽县| 信阳市| 贵定县| 木兰县| 逊克县| 贵溪市| 饶河县| 富源县| 井冈山市| 博客| 启东市| 拉萨市| 兰西县| 上虞市| 普宁市| 读书| 赤峰市| 金湖县| 潼南县| 云南省| 郴州市| 泸定县| 京山县| 苍溪县| 仁化县| 广丰县| 九台市| 定兴县| 洛南县| 五华县| 永新县| 广灵县| 道孚县| 郎溪县| 永胜县| 芜湖县| 铅山县| 榕江县| 惠水县| 贡嘎县|