日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

七家主流大模型挑戰 2025 高考數學:僅 DeepSeek、訊飛星火得分超 140

來源: 責編: 時間:2025-06-11 09:58:37 23觀看
導讀 2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。當然,試卷的難度對于不同的同學來說可

2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的 AI 來說難不難呢?Q0a28資訊網——每日最新資訊28at.com

想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。Q0a28資訊網——每日最新資訊28at.com

在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:Q0a28資訊網——每日最新資訊28at.com

?DeepSeek R1 0528Q0a28資訊網——每日最新資訊28at.com

?通義千問 Qwen3-235B-A22BQ0a28資訊網——每日最新資訊28at.com

?訊飛星火 X1-0420Q0a28資訊網——每日最新資訊28at.com

?豆包 Seed-Thingking-v1.5Q0a28資訊網——每日最新資訊28at.com

?文心 X1 TurboQ0a28資訊網——每日最新資訊28at.com

?騰訊混元 Hunyuan T1 latestQ0a28資訊網——每日最新資訊28at.com

?GPT o3Q0a28資訊網——每日最新資訊28at.com

另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,通過多版本交叉驗證 + 老師解題驗證的方式進行評測,總分是 150 分。Q0a28資訊網——每日最新資訊28at.com

同時還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:Q0a28資訊網——每日最新資訊28at.com

汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。Q0a28資訊網——每日最新資訊28at.com

此外,因 DeepSeek 網頁版 OCR 轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用 OCR 轉寫后輸入答題。Q0a28資訊網——每日最新資訊28at.com

由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。Q0a28資訊網——每日最新資訊28at.com

話不多說,我們先來看題吧。Q0a28資訊網——每日最新資訊28at.com

1、第 1 題

首先是比較簡單的選擇題第 1 題:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

這道題比較容易,DeepSeek R1 的回答如下:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

然后是通義千問:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

訊飛星火作答:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

豆包也給出了正確答案:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

文心一言的答案如下:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

騰訊混元的回答:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

GPT o3 的答案:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

對于選擇題第 1 題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。Q0a28資訊網——每日最新資訊28at.com

2、第 5 題

下面稍微上點難度,選擇題第 5 題是一道函數題:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

各家大模型的答案和截圖過程如下:Q0a28資訊網——每日最新資訊28at.com

DeepSeek :Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

通義千問:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

訊飛星火:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

豆包:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

文心一言:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

騰訊混元:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

GPT o3:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

這一道選擇題的正確答案是 A,全部答對。Q0a28資訊網——每日最新資訊28at.com

3、第 8 題

接下來我們看更難一點的題,選擇題第 8 題,這也是一道涉及到對數的函數題:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

面對這道題,各家大模型給出的答案如下:Q0a28資訊網——每日最新資訊28at.com

DeepSeek R1:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

通義千問:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

訊飛星火:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

豆包大模型:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

文心一言:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

騰訊混元:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

GPT o3:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

這道題目的正確答案是 B,豆包大模型和 DeepSeek 答錯了,其他的大模型均給出了正確的答案。Q0a28資訊網——每日最新資訊28at.com

4、第 16 題

接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第 16 題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

我們先看 DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15 分):Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

通義千問的解答和最終答案也是正確的:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

訊飛星火的回答,解題過程清晰明了,答案正確:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

文心一言第二個小題答案錯了,只能得到 6 分:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

騰訊混元兩個小題的回答都存在問題,因此這道題只能得 0 分:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

GPT o3 的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得 14 分:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

5、第 18 題

最后是難度更高,挑戰比較大的第 18 題,Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

面對這道題,訊飛星火 X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及 GPT o3 的解題過程和答案都沒什么問題,拿到了 17 分滿分,而文心 X1 模型的答案存在錯誤,得分為 10 分。Q0a28資訊網——每日最新資訊28at.com

Deepseek:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

通義千問:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

訊飛星火:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

?豆包大模型:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

文心一言:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

騰訊混元:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

GPT o3:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

以上是這次七家大模型挑戰 2025 高考數學全國 1 卷的部分題目作答情況的舉例,下面我們再來看這次“考試”各位大模型“考生”的總體得分情況:Q0a28資訊網——每日最新資訊28at.com

Q0a28資訊網——每日最新資訊28at.com

可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破 140 分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek 以 143 分的成績位列榜首,訊飛星火以 141 分緊隨其后,位居第二,GPT o3 則以 138 分獲得第三名。Q0a28資訊網——每日最新資訊28at.com

本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現 DeepSeek 在 OCR 識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他 AI 將試卷圖片轉化為文本問題,再給到 DeepSeek 作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。Q0a28資訊網——每日最新資訊28at.com

此外,在這次考試中僅以 2 分之差緊隨其后的訊飛星火,是在 4 月 20 日升級,版本較早,但在模型量級更小(70b)的情況下,其依然取得了 141 分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火 X1 是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達 20 多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。Q0a28資訊網——每日最新資訊28at.com

作為國產大模型的代表,豆包、通義千問等大模型分數緊跟 GPT o3,基本上和國際頂尖的模型水平打了個平手。Q0a28資訊網——每日最新資訊28at.com

此次國內外大模型參考“2025 高考數學”,也是深度推理模型的一場大考,和去年相比,AI 的數學能力有了非常明顯的提升。2025 年將是 AI 應用落地的爆發期,如何讓 AI 更好的成為我們的幫手,拓展 AI 在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用 AI 來作答高考試卷背后的用意和價值所在。Q0a28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-13600-0.html七家主流大模型挑戰 2025 高考數學:僅 DeepSeek、訊飛星火得分超 140

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI發展至AJI階段,谷歌CEO皮查伊:通用AI還需至少二十年

下一篇: 視頻生成平臺 Runway 舉辦年度 AI 電影節,6000 部參賽作品決出十強

標簽:
  • 熱門焦點
  • 一份全面清單:Web3行業高薪酬的13種工作

    來源:區塊鏈騎士這可能會讓許多人感到震驚,但除了成為開發人員之外,Web3還有其他高薪工作。Web3可能是現代就業市場中跨學科最多的領域,換句話說,它由許多個在不同領域中具有不同
  • 內容行業大變天,爆款全靠AI?

    出品 | 微果醬(wjam123456)作者 | 陳出木題圖 | 文心一格 AI的發展之快出乎所有人的預料,似乎一夜之間便呼嘯而來。無論是資本的風向標,抑或是生活工作的輔助、流量口,還是茶余飯
  • 超跑與NFT的首次結合,蘭博基尼能否破局?

    蘭博基尼公司近日稱即將推出它的首款NFT,并且將加速進軍區塊鏈領域。這家聞名遐邇的意大利汽車廠商野心勃勃地將目光投向混合動力和電動跑車,并宣布將拍賣與瑞士
  • 高通成立歐洲XR實驗室;ICICB計劃進軍元宇宙......

    擴展現實(XR)通過計算機將真實與虛擬相結合,打造了一個可人機交互的虛擬環境,將AR、VR、MR多種技術相融合,為體驗者帶來了虛擬世界與現實世界之間無縫轉換的“沉浸
  • 從NFT頂級公鏈到Web3.0基礎設施:帶你了解不一樣的Flow

    對于大部分年輕人來說,剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語,作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞,他們紛紛推出自己的數
  • a16z:元宇宙辦公會取代實體辦公室嗎?

    6位不同的專家對未來的工作發表看法----元宇宙--沉浸式的、基于區塊鏈的虛擬世界,大多數日常活動最終會在這里發生--但仍然只是一個概念。但它是一個擁有寶貴不
  • 想進入web3.0?來看看哪些工作適合你

    隨著對加密貨幣需求的增加,加密領域的工作的數量也在增加。以下是一些非技術性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區塊鏈領域的求職
  • 利用元宇宙平臺10天收入160萬,風口還是虎口?

    美國Meta平臺有限公司,也就是原來的臉書公司,9日宣布,公司旗下的虛擬現實應用《地平線世界》正式向美國和加拿大的18歲以上人群開放。這也是目前Meta推出的最具象
  • TX加入的NFT數字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亞 NFT 初創公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資,騰訊參投。想必國人最熟知的應該就是TX,作為國內四大互聯網
Top 主站蜘蛛池模板: 土默特左旗| 沁源县| 通城县| 旅游| 丰顺县| 股票| 左云县| 那坡县| 云和县| 钟祥市| 梧州市| 射阳县| 城固县| 沾化县| 定西市| 明溪县| 甘洛县| 金溪县| 库尔勒市| 方城县| 琼结县| 肥乡县| 光泽县| 信阳市| 新津县| 蒙自县| 观塘区| 恭城| 瓦房店市| 怀安县| 卓资县| 永年县| 黔西| 新泰市| 呼伦贝尔市| 定州市| 兰州市| 上蔡县| 湘西| 昭通市| 密山市|