2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的 AI 來說難不難呢?Q0a28資訊網——每日最新資訊28at.com
想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。Q0a28資訊網——每日最新資訊28at.com
在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:Q0a28資訊網——每日最新資訊28at.com
?DeepSeek R1 0528Q0a28資訊網——每日最新資訊28at.com
?通義千問 Qwen3-235B-A22BQ0a28資訊網——每日最新資訊28at.com
?訊飛星火 X1-0420Q0a28資訊網——每日最新資訊28at.com
?豆包 Seed-Thingking-v1.5Q0a28資訊網——每日最新資訊28at.com
?文心 X1 TurboQ0a28資訊網——每日最新資訊28at.com
?騰訊混元 Hunyuan T1 latestQ0a28資訊網——每日最新資訊28at.com
?GPT o3Q0a28資訊網——每日最新資訊28at.com
另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,通過多版本交叉驗證 + 老師解題驗證的方式進行評測,總分是 150 分。Q0a28資訊網——每日最新資訊28at.com
同時還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:Q0a28資訊網——每日最新資訊28at.com
汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。Q0a28資訊網——每日最新資訊28at.com
此外,因 DeepSeek 網頁版 OCR 轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用 OCR 轉寫后輸入答題。Q0a28資訊網——每日最新資訊28at.com
由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。Q0a28資訊網——每日最新資訊28at.com
話不多說,我們先來看題吧。Q0a28資訊網——每日最新資訊28at.com
1、第 1 題
首先是比較簡單的選擇題第 1 題:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
這道題比較容易,DeepSeek R1 的回答如下:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
然后是通義千問:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
訊飛星火作答:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
豆包也給出了正確答案:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
文心一言的答案如下:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
騰訊混元的回答:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
GPT o3 的答案:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
對于選擇題第 1 題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。Q0a28資訊網——每日最新資訊28at.com
2、第 5 題
下面稍微上點難度,選擇題第 5 題是一道函數題:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
各家大模型的答案和截圖過程如下:Q0a28資訊網——每日最新資訊28at.com
DeepSeek :Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
通義千問:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
訊飛星火:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
豆包:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
文心一言:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
騰訊混元:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
GPT o3:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
這一道選擇題的正確答案是 A,全部答對。Q0a28資訊網——每日最新資訊28at.com
3、第 8 題
接下來我們看更難一點的題,選擇題第 8 題,這也是一道涉及到對數的函數題:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
面對這道題,各家大模型給出的答案如下:Q0a28資訊網——每日最新資訊28at.com
DeepSeek R1:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
通義千問:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
訊飛星火:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
豆包大模型:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
文心一言:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
騰訊混元:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
GPT o3:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
這道題目的正確答案是 B,豆包大模型和 DeepSeek 答錯了,其他的大模型均給出了正確的答案。Q0a28資訊網——每日最新資訊28at.com
4、第 16 題
接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第 16 題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
我們先看 DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15 分):Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
通義千問的解答和最終答案也是正確的:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
訊飛星火的回答,解題過程清晰明了,答案正確:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
文心一言第二個小題答案錯了,只能得到 6 分:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
騰訊混元兩個小題的回答都存在問題,因此這道題只能得 0 分:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
GPT o3 的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得 14 分:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
5、第 18 題
最后是難度更高,挑戰比較大的第 18 題,Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
面對這道題,訊飛星火 X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及 GPT o3 的解題過程和答案都沒什么問題,拿到了 17 分滿分,而文心 X1 模型的答案存在錯誤,得分為 10 分。Q0a28資訊網——每日最新資訊28at.com
Deepseek:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
通義千問:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
訊飛星火:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
?豆包大模型:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
文心一言:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
騰訊混元:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
GPT o3:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
以上是這次七家大模型挑戰 2025 高考數學全國 1 卷的部分題目作答情況的舉例,下面我們再來看這次“考試”各位大模型“考生”的總體得分情況:Q0a28資訊網——每日最新資訊28at.com
Q0a28資訊網——每日最新資訊28at.com
可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破 140 分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek 以 143 分的成績位列榜首,訊飛星火以 141 分緊隨其后,位居第二,GPT o3 則以 138 分獲得第三名。Q0a28資訊網——每日最新資訊28at.com
本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現 DeepSeek 在 OCR 識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他 AI 將試卷圖片轉化為文本問題,再給到 DeepSeek 作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。Q0a28資訊網——每日最新資訊28at.com
此外,在這次考試中僅以 2 分之差緊隨其后的訊飛星火,是在 4 月 20 日升級,版本較早,但在模型量級更小(70b)的情況下,其依然取得了 141 分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火 X1 是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達 20 多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。Q0a28資訊網——每日最新資訊28at.com
作為國產大模型的代表,豆包、通義千問等大模型分數緊跟 GPT o3,基本上和國際頂尖的模型水平打了個平手。Q0a28資訊網——每日最新資訊28at.com
此次國內外大模型參考“2025 高考數學”,也是深度推理模型的一場大考,和去年相比,AI 的數學能力有了非常明顯的提升。2025 年將是 AI 應用落地的爆發期,如何讓 AI 更好的成為我們的幫手,拓展 AI 在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用 AI 來作答高考試卷背后的用意和價值所在。Q0a28資訊網——每日最新資訊28at.com
本文鏈接:http://www.www897cc.com/showinfo-45-13600-0.html七家主流大模型挑戰 2025 高考數學:僅 DeepSeek、訊飛星火得分超 140
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: AI發展至AJI階段,谷歌CEO皮查伊:通用AI還需至少二十年
下一篇: 視頻生成平臺 Runway 舉辦年度 AI 電影節,6000 部參賽作品決出十強