2025 年 4 月 8 日,斯坦福大學與加拿大國立大學、卡內基梅隆大學聯合發布的《2025 年人工智能指數報告》(HAI 報告)正式出爐,在眾多頂尖大模型的技術性能評測中,來自中國的訊飛星火 4.0(Spark 4.0)憑借其在“MixEval-Hard”測試中的出色表現,成為國內唯一入圍前十的中文大模型,在所有國產大模型中排名第一,展示出強勁的技術實力與國際競爭力。
MixEval 是本次 HAI 報告引入的一項全新評測標準,專為評估大語言模型在復雜真實語言任務中的表現,尤其聚焦于“分布式用戶查詢”和“復雜問題處理能力”。在更具挑戰性的 MixEval-Hard 基準測試中,訊飛星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多個國際知名模型以及通義千問等國內模型,成為唯一入榜前十的中國大模型選手。
從報告來看,在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”,以 72.0 分遙遙領先,其次是 Anthropic 的 Claude 3.5 Sonnet(68.1 分)以及 Meta 推出的 LLaMA-3 405B-Instruct(66.2 分)。訊飛星火 4.0 緊隨亞馬遜旗下模型 Mistral Large2,以 0.4 的劣勢排在第十名,在多個維度上展現出不俗的語言理解和推理能力。
MixEval-Hard 測試體系包括“過濾篩選”“語料注釋”“評估”和“動態更新”等多個環節,模擬真實場景下用戶與模型的交互過程,是目前衡量模型處理復雜任務能力最具代表性的基準之一。其涵蓋多模態能力、事實一致性、推理能力等綜合指標,被業界稱為“大模型能力大考”。
作為科大訊飛旗下的重要戰略產品,訊飛星火大模型自 2023 年發布以來不斷迭代升級。其 4.0 版本于 2024 年 6 月發布的,在語義理解、邏輯推理、跨語種翻譯等多個領域都實現突破。2025 年 3 月 3 日,訊飛星火發布深度推理模型 X1 在數學能力上大幅躍升,以 70B 參數規模便追平了 o1 和 DeepSeek-R1。尤其針對小初高中文測試集(來自 2023/2024 各學段考試真題 / 模擬題 / 競賽題),星火 X1 拿下 SOTA。令人振奮的是,這一切全是在全國產算力平臺上實現的。
值得注意的是,本次 HAI 報告也指出,雖然中美在 AI 能力發展上仍存在差距,但中國本土模型正在以“快馬加鞭”的速度追趕國際巨頭,中美頂級 AI 模型的性能差距已經縮小到了 0.3%(2023 年,這一數字還是 20%),國產大模型正在邁向全球舞臺的中心。
本文鏈接:http://www.www897cc.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 報告出爐,國產大模型僅訊飛星火入圍 Mix-Eval 前十
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com