日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

中文大模型 2024 半年報出爐,通義千問通用能力國內第一

來源: 責編: 時間:2024-07-10 17:52:20 144觀看
導讀 7 月 10 日消息,中文大模型測評基準 SuperCLUE 發布 2024 上半年報告,披露針對國內外 33 個大模型的綜合測評結果。阿里通義千問的開源模型 Qwen2-72B 成為排名第一的中國大模型,也是全球最強的開源模型,SuperCLU

7 月 10 日消息,中文大模型測評基準 SuperCLUE 發布 2024 上半年報告,披露針對國內外 33 個大模型的綜合測評結果。阿里通義千問的開源模型 Qwen2-72B 成為排名第一的中國大模型,也是全球最強的開源模型,SuperCLUE 報告認為通義千問“超過眾多國內外閉源模型”,“引領全球的開源生態”。ehW28資訊網——每日最新資訊28at.com

CLUE(The Chinese Language Understanding Evaluation)是發起于 2019 年的中文語言理解測評基準,致力于開展科學、客觀、中立的語言模型評測,SuperCLUE 聚焦于通用大模型的綜合性測評。ehW28資訊網——每日最新資訊28at.com

ehW28資訊網——每日最新資訊28at.com

本次半年度測評針對國內外 33 個大模型的 6 月份版本進行,由理科、文科和 Hard 三大維度構成。理科任務包括計算、邏輯推理、代碼測評;文科任務分為知識百科、語言理解、長文本、角色扮演、生成與創作、安全和工具使用七大測評;Hard 任務主要是精確指令遵循測評,未來還將推出復雜多步推理和高難度問題解決等測評。ehW28資訊網——每日最新資訊28at.com

ehW28資訊網——每日最新資訊28at.com

圖說:SuperCLUE 國際最好模型(GPT-4o)與國內最好模型(Qwen2-72)的整體性能對比ehW28資訊網——每日最新資訊28at.com

從代表通用能力的一級總分來看,OpenAI 的 GPT-4o 以 81 分高居榜首,Claude-3.5-Sonnet 與通義千問開源模型 Qwen2-72B-Instruct 并列第二,得分均為 77。通義千問既是排名最高的中國大模型,也是排名最高的開源大模型,性能超越文心一言 4.0、訊飛星火 V4.0、Llama-3-70B 等開閉源大模型。ehW28資訊網——每日最新資訊28at.com

具體到理科、文科、Hard 三個維度來看,國內外大模型的理科能力存在一定差距,GPT-4o 以絕對優勢領跑,Qwen2-72B 的理科測試比 GPT-4o 少 5 分;文科任務上,大模型之間的區分度不明顯,GPT-4o 與 Qwen2-72B 等模型的得分均為 76;精確指令遵循能力方面,僅有 GPT-4o 和 Claude 3.5 Sonnet 得分超過 80,國內表現最好的 Qwen2-72B 比 GPT-4o 低 6 分。ehW28資訊網——每日最新資訊28at.com

ehW28資訊網——每日最新資訊28at.com

報告同時公布了端側小模型測評榜單,通義千問 70 億參數開源模型 Qwen2-7B 排名第一,打敗了上一代版本的 Qwen1.5-32B(320 億參數)和 Llama-3-8B-Instruct(130 億參數),展現了更小尺寸的模型的極致性能。報告認為,2024 年上半年端側小模型進展迅速、表現驚艷,極大提升了落地的可行性。ehW28資訊網——每日最新資訊28at.com

據悉,Qwen2 是阿里在今年 6 月推出的通義千問第二代開源模型,已先后登頂國內外多個權威榜單,引領中國開源模型強勢崛起。Qwen 系列開源模型下載量已經突破 2000 萬次。SuperCLUE 報告點評:“綜合來看,Qwen2-72B 整體能力不俗,引領全球的開源生態,是一個非常有競爭力的通用開源大模型,可應用于推理、數理分析、信息處理或相對專業復雜場景,重點推薦應用于工業、金融、醫療、汽車等垂直專業場景。”ehW28資訊網——每日最新資訊28at.com

附:ehW28資訊網——每日最新資訊28at.com

?SuperCLUE 官方推文鏈接ehW28資訊網——每日最新資訊28at.com

?《中文大模型基準評測 2024 上半年報告》原文鏈接:ehW28資訊網——每日最新資訊28at.com

www.cluebenchmarks.com/superclue_24h1ehW28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-100065-0.html中文大模型 2024 半年報出爐,通義千問通用能力國內第一

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 三星電子:計劃在 HBM4 世代為客戶開發多樣化定制 HBM 內存

下一篇: 同比增長 105%,報告稱 HBM 芯片明年月產能突破 54 萬顆

標簽:
  • 熱門焦點
  • 2023年,我眼中的字節跳動

    此時此刻(2023年7月),字節跳動從未上市,也從未公布過任何官方的上市計劃;但是這并不妨礙它成為中國最受關注的互聯網公司之一。從2016-17年的抖音強勢崛起,到2018年的“頭騰
  • Temu起訴SHEIN,跨境電商戰事升級

    來源 | 伯虎財經(bohuFN)作者 | 陳平安日前據外媒報道,拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟,訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
  • “又被陳思誠騙了”

    作者|張思齊 出品|眾面(ID:ZhongMian_ZM)如今的國產懸疑電影,成了陳思誠的天下。最近大爆電影《消失的她》票房突破30億斷層奪魁暑期檔,陳思誠再度風頭無兩。你可以說陳思誠的
  • 阿里瓴羊One推出背后,零售企業迎數字化新解

    作者:劉曠近年來隨著數字經濟的高速發展,各式各樣的SaaS應用服務更是層出不窮,但本質上SaaS大多局限于單一業務流層面,對用戶核心關切的增長問題等則沒有提供更好的解法。在Saa
  • OPPO K11采用全方位護眼屏:三大護眼能力減輕視覺疲勞

    日前OPPO官方宣布,全新的OPPO K11將于7月25日正式發布,將主打旗艦影像,和同檔位競品相比,其最大的賣點就是將配備索尼IMX890主攝,堪稱是2000檔位影像表
  • 最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

    2022年1月份在國際消費電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現在已經可以購買了,這款筆記本電腦被譽為世界上最薄的 14 英寸游戲筆
  • 英特爾Xe HPG游戲顯卡:擁有512EU,單風扇版本

    據10 月 30 日外媒 TheVerge 消息報道,英特爾 Xe HPG Arc Alchemist 的正面實被曝光,不僅擁有 512 EU 版顯卡,還擁有 128EU 的單風扇版本。另外,這款顯卡 PCB
  • 蘋果MacBook Pro 2021測試:仍不支持平滑滾動

    據10月30日9to5 Mac 消息報道,蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯的評價,亮點包括行業領先的性能,令人印象深刻的電池續航,精美豐
  • 外交部:美方應停止在網絡安全問題上不負責任地指責他國

      中國外交部今天(16日)舉行例行記者會。會上,有記者問,美國情報官員稱,他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。 中方對此有何評論?對此
Top 主站蜘蛛池模板: 城市| 乌恰县| 平南县| 黎城县| 达州市| 固始县| 清丰县| 漠河县| 潍坊市| 福海县| 佛学| 淅川县| 玉溪市| 外汇| 宜城市| 滁州市| 德庆县| 杭锦后旗| 宝丰县| 白朗县| 永平县| 怀宁县| 郴州市| 罗山县| 呼伦贝尔市| 曲松县| 永年县| 盐池县| 巫溪县| 都昌县| 江口县| 潮州市| 九江县| 涞源县| 叙永县| 北流市| 于田县| 灌南县| 常宁市| 永兴县| 凯里市|