日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

七家主流大模型挑戰 2025 高考數學:僅 DeepSeek、訊飛星火得分超 140

來源: 責編: 時間:2025-06-11 09:58:37 55觀看
導讀 2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。當然,試卷的難度對于不同的同學來說可

2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的 AI 來說難不難呢?lLv28資訊網——每日最新資訊28at.com

想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。lLv28資訊網——每日最新資訊28at.com

在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:lLv28資訊網——每日最新資訊28at.com

?DeepSeek R1 0528lLv28資訊網——每日最新資訊28at.com

?通義千問 Qwen3-235B-A22BlLv28資訊網——每日最新資訊28at.com

?訊飛星火 X1-0420lLv28資訊網——每日最新資訊28at.com

?豆包 Seed-Thingking-v1.5lLv28資訊網——每日最新資訊28at.com

?文心 X1 TurbolLv28資訊網——每日最新資訊28at.com

?騰訊混元 Hunyuan T1 latestlLv28資訊網——每日最新資訊28at.com

?GPT o3lLv28資訊網——每日最新資訊28at.com

另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,通過多版本交叉驗證 + 老師解題驗證的方式進行評測,總分是 150 分。lLv28資訊網——每日最新資訊28at.com

同時還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:lLv28資訊網——每日最新資訊28at.com

汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。lLv28資訊網——每日最新資訊28at.com

此外,因 DeepSeek 網頁版 OCR 轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用 OCR 轉寫后輸入答題。lLv28資訊網——每日最新資訊28at.com

由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。lLv28資訊網——每日最新資訊28at.com

話不多說,我們先來看題吧。lLv28資訊網——每日最新資訊28at.com

1、第 1 題

首先是比較簡單的選擇題第 1 題:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

這道題比較容易,DeepSeek R1 的回答如下:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

然后是通義千問:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

訊飛星火作答:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

豆包也給出了正確答案:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

文心一言的答案如下:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

騰訊混元的回答:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

GPT o3 的答案:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

對于選擇題第 1 題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。lLv28資訊網——每日最新資訊28at.com

2、第 5 題

下面稍微上點難度,選擇題第 5 題是一道函數題:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

各家大模型的答案和截圖過程如下:lLv28資訊網——每日最新資訊28at.com

DeepSeek :lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

通義千問:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

訊飛星火:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

豆包:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

文心一言:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

騰訊混元:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

GPT o3:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

這一道選擇題的正確答案是 A,全部答對。lLv28資訊網——每日最新資訊28at.com

3、第 8 題

接下來我們看更難一點的題,選擇題第 8 題,這也是一道涉及到對數的函數題:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

面對這道題,各家大模型給出的答案如下:lLv28資訊網——每日最新資訊28at.com

DeepSeek R1:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

通義千問:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

訊飛星火:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

豆包大模型:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

文心一言:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

騰訊混元:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

GPT o3:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

這道題目的正確答案是 B,豆包大模型和 DeepSeek 答錯了,其他的大模型均給出了正確的答案。lLv28資訊網——每日最新資訊28at.com

4、第 16 題

接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第 16 題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

我們先看 DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15 分):lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

通義千問的解答和最終答案也是正確的:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

訊飛星火的回答,解題過程清晰明了,答案正確:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

文心一言第二個小題答案錯了,只能得到 6 分:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

騰訊混元兩個小題的回答都存在問題,因此這道題只能得 0 分:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

GPT o3 的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得 14 分:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

5、第 18 題

最后是難度更高,挑戰比較大的第 18 題,lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

面對這道題,訊飛星火 X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及 GPT o3 的解題過程和答案都沒什么問題,拿到了 17 分滿分,而文心 X1 模型的答案存在錯誤,得分為 10 分。lLv28資訊網——每日最新資訊28at.com

Deepseek:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

通義千問:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

訊飛星火:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

?豆包大模型:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

文心一言:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

騰訊混元:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

GPT o3:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

以上是這次七家大模型挑戰 2025 高考數學全國 1 卷的部分題目作答情況的舉例,下面我們再來看這次“考試”各位大模型“考生”的總體得分情況:lLv28資訊網——每日最新資訊28at.com

lLv28資訊網——每日最新資訊28at.com

可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破 140 分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek 以 143 分的成績位列榜首,訊飛星火以 141 分緊隨其后,位居第二,GPT o3 則以 138 分獲得第三名。lLv28資訊網——每日最新資訊28at.com

本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現 DeepSeek 在 OCR 識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他 AI 將試卷圖片轉化為文本問題,再給到 DeepSeek 作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。lLv28資訊網——每日最新資訊28at.com

此外,在這次考試中僅以 2 分之差緊隨其后的訊飛星火,是在 4 月 20 日升級,版本較早,但在模型量級更小(70b)的情況下,其依然取得了 141 分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火 X1 是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達 20 多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。lLv28資訊網——每日最新資訊28at.com

作為國產大模型的代表,豆包、通義千問等大模型分數緊跟 GPT o3,基本上和國際頂尖的模型水平打了個平手。lLv28資訊網——每日最新資訊28at.com

此次國內外大模型參考“2025 高考數學”,也是深度推理模型的一場大考,和去年相比,AI 的數學能力有了非常明顯的提升。2025 年將是 AI 應用落地的爆發期,如何讓 AI 更好的成為我們的幫手,拓展 AI 在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用 AI 來作答高考試卷背后的用意和價值所在。lLv28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-13600-0.html七家主流大模型挑戰 2025 高考數學:僅 DeepSeek、訊飛星火得分超 140

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI發展至AJI階段,谷歌CEO皮查伊:通用AI還需至少二十年

下一篇: 視頻生成平臺 Runway 舉辦年度 AI 電影節,6000 部參賽作品決出十強

標簽:
  • 熱門焦點
  • 聚焦虛擬數字人技術,這三大商機要抓住!

    關于虛擬數字人,企業可以從三個方面入局,分別是ToG(To Government,面向政府),即為數字政府和數字城市提供支持服務;ToB(To Business,面向企業),即為企業提供虛擬員工解決方案;ToC(To Cons
  • 如何對一款 NFT 項目進行價值評估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企業家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導 Web3 和 NFT 領域的企業家,因為我相信我們正在見證社會
  • 英特爾首款加密芯片將于今年上市|國際動態

    No.1 英特爾首款加密芯片將于今年上市2月13日消息,英特爾首款名為“區塊鏈加速器”的加密芯片將于今年晚些時候上市。目前,已經有兩家公司預訂了這項技術,分別是G
  • 字節覓《原神》,騰訊元宇宙,游戲新王戰舊神?

    文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞,“得不到的永遠在騷動”,這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起,使得頭部游戲大廠感受
  • 《刀劍神域》VR展開幕;《Puzzling Places》發布第二個付費DLC

    今日熱點:《刀劍神域:Ex-Chronicle Online Edition》VR展開幕;虛擬活動平臺EventX再獲800萬美元B輪融資;VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
  • 元宇宙是推動NFT發展的初始家園

    現在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數字資產帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • 大廠打造元宇宙平臺的業務重心是什么?

    知名市場研究機構IDC發布《2022年中國元宇宙市場十大預測》報告,其中提出互聯網大廠各自獨立布局元宇宙平臺。事實上,在2021年的最后一個季度,包括Meta、英偉達、
  • 頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

    特別聲明,我們的文章不作為投資建議,請各位讀者獨立思考,還是那句話:投資要慎之又慎,誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • NFT高玩必備:NFT分析工具大盤點

    NFT市場的火熱讓越來越多的投資者投身其中,但當前的 NFT 生態系統存在幾個問題卻困擾了大多數人,如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態信息、
Top 主站蜘蛛池模板: 清水县| 天镇县| 巨野县| 宜君县| 洛隆县| 称多县| 个旧市| 玉山县| 本溪市| 自贡市| 贺兰县| 绩溪县| 新河县| 阜南县| 祁连县| 呼伦贝尔市| 信阳市| 武山县| SHOW| 平山县| 武宁县| 蓬莱市| 云阳县| 百色市| 那坡县| 嘉定区| 克东县| 鲜城| 榕江县| 黑水县| 浦江县| 张家口市| 定结县| 湘乡市| 分宜县| 长宁县| 兴和县| 阳东县| 房山区| 太仆寺旗| 自贡市|