日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

中文大模型 2024 半年報出爐,通義千問通用能力國內第一

來源: 責編: 時間:2024-07-10 17:52:20 167觀看
導讀 7 月 10 日消息,中文大模型測評基準 SuperCLUE 發布 2024 上半年報告,披露針對國內外 33 個大模型的綜合測評結果。阿里通義千問的開源模型 Qwen2-72B 成為排名第一的中國大模型,也是全球最強的開源模型,SuperCLU

7 月 10 日消息,中文大模型測評基準 SuperCLUE 發布 2024 上半年報告,披露針對國內外 33 個大模型的綜合測評結果。阿里通義千問的開源模型 Qwen2-72B 成為排名第一的中國大模型,也是全球最強的開源模型,SuperCLUE 報告認為通義千問“超過眾多國內外閉源模型”,“引領全球的開源生態”。ZwP28資訊網——每日最新資訊28at.com

CLUE(The Chinese Language Understanding Evaluation)是發起于 2019 年的中文語言理解測評基準,致力于開展科學、客觀、中立的語言模型評測,SuperCLUE 聚焦于通用大模型的綜合性測評。ZwP28資訊網——每日最新資訊28at.com

ZwP28資訊網——每日最新資訊28at.com

本次半年度測評針對國內外 33 個大模型的 6 月份版本進行,由理科、文科和 Hard 三大維度構成。理科任務包括計算、邏輯推理、代碼測評;文科任務分為知識百科、語言理解、長文本、角色扮演、生成與創作、安全和工具使用七大測評;Hard 任務主要是精確指令遵循測評,未來還將推出復雜多步推理和高難度問題解決等測評。ZwP28資訊網——每日最新資訊28at.com

ZwP28資訊網——每日最新資訊28at.com

圖說:SuperCLUE 國際最好模型(GPT-4o)與國內最好模型(Qwen2-72)的整體性能對比ZwP28資訊網——每日最新資訊28at.com

從代表通用能力的一級總分來看,OpenAI 的 GPT-4o 以 81 分高居榜首,Claude-3.5-Sonnet 與通義千問開源模型 Qwen2-72B-Instruct 并列第二,得分均為 77。通義千問既是排名最高的中國大模型,也是排名最高的開源大模型,性能超越文心一言 4.0、訊飛星火 V4.0、Llama-3-70B 等開閉源大模型。ZwP28資訊網——每日最新資訊28at.com

具體到理科、文科、Hard 三個維度來看,國內外大模型的理科能力存在一定差距,GPT-4o 以絕對優勢領跑,Qwen2-72B 的理科測試比 GPT-4o 少 5 分;文科任務上,大模型之間的區分度不明顯,GPT-4o 與 Qwen2-72B 等模型的得分均為 76;精確指令遵循能力方面,僅有 GPT-4o 和 Claude 3.5 Sonnet 得分超過 80,國內表現最好的 Qwen2-72B 比 GPT-4o 低 6 分。ZwP28資訊網——每日最新資訊28at.com

ZwP28資訊網——每日最新資訊28at.com

報告同時公布了端側小模型測評榜單,通義千問 70 億參數開源模型 Qwen2-7B 排名第一,打敗了上一代版本的 Qwen1.5-32B(320 億參數)和 Llama-3-8B-Instruct(130 億參數),展現了更小尺寸的模型的極致性能。報告認為,2024 年上半年端側小模型進展迅速、表現驚艷,極大提升了落地的可行性。ZwP28資訊網——每日最新資訊28at.com

據悉,Qwen2 是阿里在今年 6 月推出的通義千問第二代開源模型,已先后登頂國內外多個權威榜單,引領中國開源模型強勢崛起。Qwen 系列開源模型下載量已經突破 2000 萬次。SuperCLUE 報告點評:“綜合來看,Qwen2-72B 整體能力不俗,引領全球的開源生態,是一個非常有競爭力的通用開源大模型,可應用于推理、數理分析、信息處理或相對專業復雜場景,重點推薦應用于工業、金融、醫療、汽車等垂直專業場景。”ZwP28資訊網——每日最新資訊28at.com

附:ZwP28資訊網——每日最新資訊28at.com

?SuperCLUE 官方推文鏈接ZwP28資訊網——每日最新資訊28at.com

?《中文大模型基準評測 2024 上半年報告》原文鏈接:ZwP28資訊網——每日最新資訊28at.com

www.cluebenchmarks.com/superclue_24h1ZwP28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-100065-0.html中文大模型 2024 半年報出爐,通義千問通用能力國內第一

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 三星電子:計劃在 HBM4 世代為客戶開發多樣化定制 HBM 內存

下一篇: 同比增長 105%,報告稱 HBM 芯片明年月產能突破 54 萬顆

標簽:
  • 熱門焦點
  • 小米降噪藍牙耳機Necklace分享:聽一首歌 讀懂一個故事

    在今天下午的小米Civi 2新品發布會上,小米還帶來了一款新的降噪藍牙耳機Necklace,我們也在發布結束的第一時間給大家帶來這款耳機的簡單分享。現在大家能見到最多的藍牙耳機
  • 企業采用CRM系統的11個好處

    客戶關系管理(CRM)軟件可以為企業提供很多的好處,從客戶保留到提高生產力。  CRM軟件用于企業收集客戶互動,以改善客戶體驗和滿意度。  CRM軟件市場規模如今超過580
  • Flowable工作流引擎的科普與實踐

    一.引言當我們在日常工作和業務中需要進行各種審批流程時,可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 講故事上個月我寫過一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,當時用的是 GDIView + WinDbg 把問題搞定,前者用來定位泄露資源,后者用來定位泄露代碼,后面有朋友反
  • 雅柏威士忌多款單品價格大跌,泥煤頂流也不香了?

    來源 | 烈酒商業觀察編 | 肖海林今年以來,威士忌市場開始出現了降溫跡象,越來越多不斷暴漲的網紅威士忌也開始悄然回歸市場理性。近日,LVMH集團旗下蘇格蘭威士忌品牌雅柏(Ardbeg
  • 10天營收超1億美元,《星鐵》比《原神》差在哪?

    來源:伯虎財經作者:陳平安即便你沒玩過《原神》,你一定聽說過的它的大名。恨它的人把《原神》開服那天稱作是中國游戲史上最黑暗的一天,有粉絲因為索尼在PS平臺上線《原神》,怒而
  • 阿里大調整

    來源:產品劉有媒體報道稱,近期淘寶天貓集團啟動了近年來最大的人力制度改革,涉及員工績效、層級體系等多個核心事項,目前已形成一個初步的“征求意見版”:1、取消P序列
  • 華為Mate60標準版細節曝光:經典星環相機模組回歸

    這段時間以來,關于華為新旗艦的爆料日漸密集。據此前多方爆料,今年華為將開始恢復一年雙旗艦戰略,除上半年推出的P60系列外,往年下半年的Mate系列也將
  • 三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

    2023年7月26日,三星電子正式發布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外,Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
Top 主站蜘蛛池模板: 开平市| 丁青县| 鹿邑县| 邵武市| 台州市| 石家庄市| 通道| 湖南省| 莆田市| 新竹县| 宿州市| 彭州市| 读书| 泗水县| 开江县| 西昌市| 衡水市| 奉新县| 浦城县| 勃利县| 库伦旗| 财经| 河西区| 湘西| 班戈县| 三穗县| 晴隆县| 获嘉县| 建湖县| 徐水县| 瑞丽市| 九江县| 浑源县| 上林县| 建湖县| 喜德县| 墨竹工卡县| 腾冲县| 龙井市| 习水县| 贡嘎县|