當前位置：首頁 > 科技 > 軟件

斯坦福 2025 年 HAI 報告出爐，國產大模型僅訊飛星火入圍 Mix-Eval 前十

來源：責編：時間：2025-04-09 12:35:42 82觀看

導讀 2025 年 4 月 8 日，斯坦福大學與加拿大國立大學、卡內基梅隆大學聯合發布的《2025 年人工智能指數報告》（HAI 報告）正式出爐，在眾多頂尖大模型的技術性能評測中，來自中國的訊飛星火 4.0（Spark 4.0）憑借其在“MixEval

2025 年 4 月 8 日，斯坦福大學與加拿大國立大學、卡內基梅隆大學聯合發布的《2025 年人工智能指數報告》（HAI 報告）正式出爐，在眾多頂尖大模型的技術性能評測中，來自中國的訊飛星火 4.0（Spark 4.0）憑借其在“MixEval-Hard”測試中的出色表現，成為國內唯一入圍前十的中文大模型，在所有國產大模型中排名第一，展示出強勁的技術實力與國際競爭力。

MixEval 是本次 HAI 報告引入的一項全新評測標準，專為評估大語言模型在復雜真實語言任務中的表現，尤其聚焦于“分布式用戶查詢”和“復雜問題處理能力”。在更具挑戰性的 MixEval-Hard 基準測試中，訊飛星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多個國際知名模型以及通義千問等國內模型，成為唯一入榜前十的中國大模型選手。

從報告來看，在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”，以 72.0 分遙遙領先，其次是 Anthropic 的 Claude 3.5 Sonnet（68.1 分）以及 Meta 推出的 LLaMA-3 405B-Instruct（66.2 分）。訊飛星火 4.0 緊隨亞馬遜旗下模型 Mistral Large2，以 0.4 的劣勢排在第十名，在多個維度上展現出不俗的語言理解和推理能力。

MixEval-Hard 測試體系包括“過濾篩選”“語料注釋”“評估”和“動態更新”等多個環節，模擬真實場景下用戶與模型的交互過程，是目前衡量模型處理復雜任務能力最具代表性的基準之一。其涵蓋多模態能力、事實一致性、推理能力等綜合指標，被業界稱為“大模型能力大考”。

作為科大訊飛旗下的重要戰略產品，訊飛星火大模型自 2023 年發布以來不斷迭代升級。其 4.0 版本于 2024 年 6 月發布的，在語義理解、邏輯推理、跨語種翻譯等多個領域都實現突破。2025 年 3 月 3 日，訊飛星火發布深度推理模型 X1 在數學能力上大幅躍升，以 70B 參數規模便追平了 o1 和 DeepSeek-R1。尤其針對小初高中文測試集（來自 2023/2024 各學段考試真題 / 模擬題 / 競賽題），星火 X1 拿下 SOTA。令人振奮的是，這一切全是在全國產算力平臺上實現的。

值得注意的是，本次 HAI 報告也指出，雖然中美在 AI 能力發展上仍存在差距，但中國本土模型正在以“快馬加鞭”的速度追趕國際巨頭，中美頂級 AI 模型的性能差距已經縮小到了 0.3%（2023 年，這一數字還是 20%），國產大模型正在邁向全球舞臺的中心。

本文鏈接：http://www.www897cc.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 報告出爐，國產大模型僅訊飛星火入圍 Mix-Eval 前十

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：江波龍推出企業級 SATA 固態硬盤 UNCIA 3856：容量覆蓋 480GB 至 7.68TB

下一篇：《刺客信條：影》兩大主機平臺表現迥異，PS5銷量不佳真相何在？

標簽：

熱門焦點

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

華為全新的HarmonyOS 4.0操作系統將于今天下午正式登場，官方在發布會之前也已經正式給出了可升級的機型產品，這意味著這些機型會率先支持升級享用。這次的HarmonyOS 4.0支持
K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

Redmi的后性能時代戰略發布會今天下午如期舉辦，在本次發布會上，Redmi公布了多項關于和聯發科的深度合作，以及新機K60 Ultra在軟件和硬件方面的特性，例如：“K60 至尊版，雙芯旗艦
Redmi Buds 4開箱簡評：才199還有降噪可以無腦入

在上個月舉辦的Redmi Note11T Pro系列新機發布會上，除了兩款手機新品之外，Redmi還帶來了兩款TWS真無線藍牙耳機產品，Redmi Buds 4和Redmi Buds 4 Pro，此前我們在Redmi Note11T
微信語音大揭秘：為什么禁止轉發？

大家好，我是你們的小米。今天，我要和大家聊一個有趣的話題：為什么微信語音不可以轉發？這是一個我們經常在日常使用中遇到的問題，也是一個讓很多人好奇的問題。讓我們一起來揭開這
10天營收超1億美元，《星鐵》比《原神》差在哪？

來源：伯虎財經作者：陳平安即便你沒玩過《原神》，你一定聽說過的它的大名。恨它的人把《原神》開服那天稱作是中國游戲史上最黑暗的一天，有粉絲因為索尼在PS平臺上線《原神》，怒而
自律，給不了Keep自由！

來源 | 互聯網品牌官作者 | 李大為編排 | 又耳審核 | 谷曉輝自律能不能給用戶自由暫時不好說，但大概率不能給Keep自由。近日，全球最大的在線健身平臺Keep正式登陸港交所，努力
華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

在今日舉行的2023年華為云數字文娛AI創新峰會上，華為云全球Marketing與銷售服務總裁石冀琳表示，華為云將在后續推出盤古數字人大模型，可幫助用戶12小
OPPO K11樣張首曝：千元機影像“卷”得真不錯！

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

斯坦福 2025 年 HAI 報告出爐，國產大模型僅訊飛星火入圍 Mix-Eval 前十

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

Redmi Buds 4開箱簡評：才199還有降噪可以無腦入

微信語音大揭秘：為什么禁止轉發？

重估百度丨“晚熟”的百度云，能等到春天嗎？

10天營收超1億美元，《星鐵》比《原神》差在哪？

自律，給不了Keep自由！

華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

OPPO K11樣張首曝：千元機影像“卷”得真不錯！

最新推薦

猜你喜歡

熱門推薦

相關資訊