當(dāng)前位置：首頁 > 科技 > 資訊

AI大模型挑戰(zhàn)高考：豆包等三款國產(chǎn)大模型突破文科一本線數(shù)理學(xué)科仍需提升

來源：責(zé)編：時間：2024-06-29 08:00:23 210觀看

導(dǎo)讀&emsp;&emsp;當(dāng)大模型化身考生參加高考，究竟會獲得怎樣的成績？&emsp;&emsp;6月24日，在極客公園最新發(fā)布的高考新課標(biāo)Ⅰ卷大模型評測報告中，文科本科一批錄取分?jǐn)?shù)線為521分，GPT-4o以562分排名文科總分第一，字節(jié)豆包以542.5分

當(dāng)大模型化身考生參加高考，究竟會獲得怎樣的成績？

6月24日，在極客公園最新發(fā)布的高考新課標(biāo)Ⅰ卷大模型評測報告中，文科本科一批錄取分?jǐn)?shù)線為521分，GPT-4o以562分排名文科總分第一，字節(jié)豆包以542.5分位列于GPT-4o之后，排名國產(chǎn)AI第一。字節(jié)豆包、文心一言、百小應(yīng)三款國產(chǎn)AI成功超過一本線。

但與文科相比，大模型在理科方面的表現(xiàn)卻不盡如人意，其最高分?jǐn)?shù)不到480分的標(biāo)準(zhǔn)，而多數(shù)大模型的理科成績更是低于400分。與河南地區(qū)理科一本線的511分相比，大模型尚有很大差距。

圖源：極客公園

大模型語言能力強(qiáng)項，作文仍需繼續(xù)提升

在所有考試科目中，語文、英語這兩門語言類考試，是大模型與人類考生實力最為接近的賽場，其主要原因還是因為知識記憶和語言文字運(yùn)用是大模型的強(qiáng)項。

在語文考試中，憑借中文語言的“主場優(yōu)勢”，包括GPT-4o這個外國考生在內(nèi)，所有大模型的客觀題都能取得不錯的成績，三款國產(chǎn)大模型產(chǎn)品獲得了語文考試前三名，分別是百小應(yīng)、字節(jié)豆包和騰訊元寶。

作為語文考試中，作為最容易拉開差距的題型，作文成為了本次考試的分水嶺。面對相對開放的作文題目“隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫一篇文章。”

本次評測的語文作文閱卷人，曾多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區(qū)語文學(xué)科帶頭人夏老師表示，大模型的整體寫作能力處于一個很高的水平，大多數(shù)有清晰完整的結(jié)構(gòu)，有邏輯性，語言通順流暢，甚至超過學(xué)生的寫作能力。“但其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力。”

令人驚喜的是，豆包大模型的作文得到了閱卷老師的好評。該文中顯出的對就業(yè)結(jié)構(gòu)、倫理方面的擔(dān)心，展現(xiàn)出了豆包已經(jīng)具有不錯的思想深度和思辨能力。在立住“問題”后，豆包還能隨即用反問句自然過渡，引出三個排比段提出解決問題的方法——保持“問題意識”。閱卷老師給這篇作文打了52分，其中用發(fā)展的眼光分析問題，結(jié)合現(xiàn)實生活揭示問題產(chǎn)生的根源和危害的部分頗為亮點，并且整體上“結(jié)構(gòu)嚴(yán)謹(jǐn)，層層推進(jìn)，語句流暢，認(rèn)識全面”。

英語，寫作同樣是大模型的一大難題。本次評測默認(rèn)所有大模型的聽力都獲得30分滿分。在閱讀和語言運(yùn)用兩大項客觀問題的考試上，GPT-4o、百小應(yīng)、通義千問獲得80分滿分，豆包和文心一言4.0也接近滿分。但是在40分的寫作考試中，最高分只有29分，分別由GPT-4o和百小應(yīng)獲得，各家模型的英語寫作主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。如果大模型在未來能夠提升寫作能力，獲得高考滿分并非難事。

文綜整體出色，國產(chǎn)大模型進(jìn)步飛快

在由歷史、地理、政治組成的新課標(biāo)文綜考卷評測中，大模型整體表現(xiàn)優(yōu)異。GPT-4o獲得237分的成績。國產(chǎn)大模型產(chǎn)品中，豆包的文綜成績最高，分?jǐn)?shù)達(dá)到224.5分，其中歷史和政治兩科得分率超過80%。如果分科來看，豆包在歷史考試中以82.5分在所有參與考試的大模型中位列第一，而“外來的和尚”GPT-4o則在政治考試中取得88分的佳績。

在被稱為“文科中的理科”地理考卷中包含大量圖片問題，且地理的學(xué)科屬性中有著更強(qiáng)的邏輯能力，對一眾大模型而言是不小的挑戰(zhàn)，最終的得分也證明了大模型整體對于地理考試的不擅長，圖像理解能力較強(qiáng)的GPT-4o取得最高分，但最終也僅取得68分。

河南高考分?jǐn)?shù)段統(tǒng)計數(shù)據(jù)顯示，GPT-4o的562分在文科考生中排名8811名，相當(dāng)于人類考生的前2.45%。而在國產(chǎn)大模型中，豆包以542.5分位列第一，處于前4.27%的位置。

在過去的一年中，國產(chǎn)AI大模型取得了顯著的提升，其整體能力已經(jīng)可以與GPT-4等國際頂尖大模型一較高下。高考評測報告結(jié)果也表明，我國在人工智能領(lǐng)域的研發(fā)實力和技術(shù)成果正在不斷進(jìn)步，與國際先進(jìn)水平的差距也在進(jìn)一步縮小。

理綜成績差距較大，AI需學(xué)會像人類一樣思考

盡管大模型在文科領(lǐng)域展現(xiàn)出了一定的優(yōu)勢，但在數(shù)學(xué)、物理、化學(xué)等理科科目上，它們的性能與人類頂尖考生相比有著顯著的差距。經(jīng)過全面的評估，包括GPT-4o在內(nèi)的大模型在這些科目中均未能達(dá)到及格標(biāo)準(zhǔn)，即便是最好的成績也無法躋身人類考生的前30%。

以數(shù)學(xué)為例，9款大模型產(chǎn)品中，僅GPT-4o、文心一言4.0和豆包三款模型的得分略高于60分（滿分150分）。這意味著目前的大模型在處理復(fù)雜的數(shù)學(xué)問題時仍然力不從心，只能解決一些相對簡單的推理步驟，且存在把簡單問題復(fù)雜化的情況。據(jù)測試機(jī)構(gòu)透露，豆包等大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理，但是面對較為復(fù)雜的推導(dǎo)和證明問題就很難繼續(xù)得分。

重點考查實驗探究能力的化學(xué)和物理試卷，各模型平均分更是只有34分和39分（滿分為100和110）。化學(xué)單項最高分由豆包獲得，成績?yōu)?9.5分，GPT-4o僅有42分。大模型在應(yīng)對考試的靈活性上也不如人類。例如物理考試中有一道送分題，人類考生根據(jù)“時間不會倒流”可以排除錯誤選項，輕易選對正確答案“C”，大模型則幾乎全軍覆沒。

此外，大模型在整體表現(xiàn)上雖然取得了一定的成績，但仍存在一些問題。例如，它們普遍缺乏反思能力，當(dāng)計算過程出現(xiàn)錯誤時，無法像人類一樣進(jìn)行檢查和修正。此外，在回答某些問題時，AI模型可能會過于依賴已有的知識和經(jīng)驗，而忽略了一些新的信息和觀點。

要學(xué)會像人類一樣思考和解決問題，大模型還有很長的路要走。

AI的發(fā)展不僅僅是技術(shù)上的突破，更需要在應(yīng)用場景和領(lǐng)域上進(jìn)行不斷的探索和創(chuàng)新。從幾年前AI開始嘗試做小學(xué)題目，到2022 年第一次有人將AI帶進(jìn)高考的英語考場，再到現(xiàn)在以豆包為代表的國產(chǎn)大模型“考生”取得不俗的文綜成績。正如一位大模型考生在語文作文中所提到的“路漫漫其修遠(yuǎn)兮，吾將上下而求索。”這次模擬高考的結(jié)束，將會成為大模型發(fā)展的新起點，相信AI在不遠(yuǎn)的將來一定能夠為我們帶來更多的驚喜和改變。（作者周靖杰實習(xí)生蔣瑞）

本文鏈接：http://www.www897cc.com/showinfo-16-97408-0.htmlAI大模型挑戰(zhàn)高考：豆包等三款國產(chǎn)大模型突破文科一本線數(shù)理學(xué)科仍需提升

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： 5G碰撞AI，在2024世界移動通信大會看見數(shù)字生活

下一篇：段宇：視源股份將通過多項產(chǎn)品及技術(shù)助力企業(yè)數(shù)字化轉(zhuǎn)型

標(biāo)簽：

熱門焦點

石頭自清潔掃拖機(jī)器人G10S評測：多年黑科技集大成之作懶人終極福音

科技圈經(jīng)常能看到一個詞叫“縫合怪”，用來形容那些把好多功能或者外觀結(jié)合在一起的產(chǎn)品，通常這樣的詞是貶義詞，但如果真的是產(chǎn)品縫合的好、縫合的實用的話，那它就成了中性詞，今
一文看懂為蘋果Vision Pro開發(fā)應(yīng)用程序

譯者 | 布加迪審校 | 重樓蘋果的Vision Pro是一款混合現(xiàn)實（MR）頭戴設(shè)備。Vision Pro結(jié)合了虛擬現(xiàn)實（VR）和增強(qiáng)現(xiàn)實（AR）的沉浸感。其高分辨率顯示屏、先進(jìn)的傳感器和強(qiáng)大的處理能力
Golang 中的 io 包詳解：組合接口

io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合，
OPPO、vivo、小米等國內(nèi)廠商Q2在印度智能手機(jī)市場份額依舊高達(dá)55%

7月20日消息，據(jù)外媒報道，研究機(jī)構(gòu)的報告顯示，在全球智能手機(jī)出貨量同比仍在下滑的大背景下，印度這一有潛力的市場也未能幸免，出貨量同比也有下滑，多家廠
蘋果、三星、惠普等暫停向印度出口筆記本和平板電腦

集微網(wǎng)消息，據(jù)彭博社報道，在8月3日印度突然禁止在沒有許可證的情況下向印度進(jìn)口電腦/平板及顯示器等產(chǎn)品后，蘋果、三星電子和惠普等大公司暫停向印度
支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發(fā)布限時優(yōu)惠價369元

2023年7月4日，“無損音質(zhì)，聲動人心”iQOO TWS 1正式發(fā)布，支持aptX Lossless無損傳輸，限時優(yōu)惠價369元。iQOO TWS 1耳機(jī)率先支持端到端aptX Lossless無
iQOO 11S新品發(fā)布會

iQOO將在7月4日19:00舉行新品發(fā)布會，推出杭州亞運(yùn)會電競賽事官方用機(jī)iQOO 11S。
iQOO Neo8系列新品發(fā)布會

旗艦雙芯更強(qiáng)更Pro
OPPO K11評測：旗艦級IMX890加持 2000元檔最強(qiáng)影像手機(jī)

【Techweb評測】中端機(jī)型用戶群體巨大，占了中國目前手機(jī)市場的大頭，一直以來都是各手機(jī)品牌的“必爭之地”，其中OPPO K系列機(jī)型一直以來都以高品質(zhì)、

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

AI大模型挑戰(zhàn)高考：豆包等三款國產(chǎn)大模型突破文科一本線數(shù)理學(xué)科仍需提升

石頭自清潔掃拖機(jī)器人G10S評測：多年黑科技集大成之作懶人終極福音

一文看懂為蘋果Vision Pro開發(fā)應(yīng)用程序

Golang 中的 io 包詳解：組合接口

OPPO、vivo、小米等國內(nèi)廠商Q2在印度智能手機(jī)市場份額依舊高達(dá)55%

蘋果、三星、惠普等暫停向印度出口筆記本和平板電腦

支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發(fā)布限時優(yōu)惠價369元

iQOO 11S新品發(fā)布會

iQOO Neo8系列新品發(fā)布會

OPPO K11評測：旗艦級IMX890加持 2000元檔最強(qiáng)影像手機(jī)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

AI大模型挑戰(zhàn)高考：豆包等三款國產(chǎn)大模型突破文科一本線 數(shù)理學(xué)科仍需提升

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

AI大模型挑戰(zhàn)高考：豆包等三款國產(chǎn)大模型突破文科一本線數(shù)理學(xué)科仍需提升