日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

大模型 2024 高考發(fā)榜,豆包等三款國產(chǎn) AI 考上文科一本線

來源: 責(zé)編: 時間:2024-06-28 17:09:12 172觀看
導(dǎo)讀 眼下,全國各地的高考成績陸續(xù)出爐,各種關(guān)于考生考了多少分的新聞也在不斷登上頭條。而最近,有一批特殊考生的成績也出爐了,他們就是由各家 AI 大模型組成的“考試天團”。大模型考上文科本科,豆包拿下國產(chǎn) AI 最高

眼下,全國各地的高考成績陸續(xù)出爐,各種關(guān)于考生考了多少分的新聞也在不斷登上頭條。XZL28資訊網(wǎng)——每日最新資訊28at.com

而最近,有一批特殊考生的成績也出爐了,他們就是由各家 AI 大模型組成的“考試天團”。XZL28資訊網(wǎng)——每日最新資訊28at.com

大模型考上文科本科,豆包拿下國產(chǎn) AI 最高分

6 月 24 日,在極客公園最新發(fā)布的高考新課標(biāo) Ⅰ 卷大模型評測報告中,GPT-4o 以 562 分排名文科總分第一。國內(nèi)產(chǎn)品中,字節(jié)跳動旗下的豆包拔得頭籌,成績是 542.5 分。XZL28資訊網(wǎng)——每日最新資訊28at.com

再往后,依次是百度文心一言 4.0 的 537.5 分、百川智能“百小應(yīng)”的 521 分。本次大模型高考評測與河南省考卷完全相同,河南高考錄取分?jǐn)?shù)線顯示,文科本科一批錄取分?jǐn)?shù)線為 521 分,豆包等三款國產(chǎn) AI 成功沖上一本線。XZL28資訊網(wǎng)——每日最新資訊28at.com

XZL28資訊網(wǎng)——每日最新資訊28at.com

我們知道,當(dāng)前生成式 AI 大模型技術(shù)正處于商用普及的初期,小到每個人的工作、生活,大到千行百業(yè)的生產(chǎn)、創(chuàng)作,都在逐漸受到來自 AI 大模型技術(shù)的賦能。XZL28資訊網(wǎng)——每日最新資訊28at.com

但同時我們也應(yīng)該看到,生成式 AI 尚處于發(fā)展初級階段,AI 是否足夠“聰明”,仍然是影響相關(guān)技術(shù)和產(chǎn)品體驗的基本要素。XZL28資訊網(wǎng)——每日最新資訊28at.com

所以,用高考題來測試 AI 大模型,確實不失為一個有趣又直觀的評判大模型能力的方式。XZL28資訊網(wǎng)——每日最新資訊28at.com

下面讓我們具體看看不同大模型在面對高考試卷時的表現(xiàn)。XZL28資訊網(wǎng)——每日最新資訊28at.com

語言能力是優(yōu)勢,豆包大模型作文獲好評

具體來看這次高考卷大模型評測的詳細(xì)情況。首先,語文、英語的語言類考試,是大模型有能力和人類考生較量的賽場,多家產(chǎn)品能拿到客觀題目的滿分或接近滿分。XZL28資訊網(wǎng)——每日最新資訊28at.com

憑借中文語言的“主場優(yōu)勢”,三款國產(chǎn)大模型產(chǎn)品獲得了語文考試前三名,分別是百小應(yīng)、字節(jié)豆包和騰訊元寶,得分依次為 128 分、125.5 分和 120.5 分。除了少數(shù)開放性的閱讀理解和語言文字運用問題,各家大模型主要丟分在語文寫作上。XZL28資訊網(wǎng)——每日最新資訊28at.com

XZL28資訊網(wǎng)——每日最新資訊28at.com

(圖自:極客公園)

作為本次評測的語文作文閱卷人,北京市級骨干教師、懷柔區(qū)語文學(xué)科帶頭人夏老師曾多次參加全國高考語文閱卷。XZL28資訊網(wǎng)——每日最新資訊28at.com

夏老師認(rèn)為:“Al 寫出的文章大多有清晰完整的結(jié)構(gòu),有邏輯性,語言通順流暢。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”XZL28資訊網(wǎng)——每日最新資訊28at.com

不過這其中,豆包大模型的作文在匿名閱卷中,獲得閱卷老師的好評:XZL28資訊網(wǎng)——每日最新資訊28at.com

文章中顯出的對就業(yè)結(jié)構(gòu)、倫理方面的擔(dān)心,展現(xiàn)出豆包已經(jīng)具有不錯的思想深度和思辨能力。在立住“問題”后,豆包隨即用反問句自然過渡,引出三個排比段提出解決問題的方法 —— 保持“問題意識”。其中用發(fā)展的眼光分析問題,結(jié)合現(xiàn)實生活揭示問題產(chǎn)生的根源和危害的部分頗為亮點,并且整體上“結(jié)構(gòu)嚴(yán)謹(jǐn),層層推進,語句流暢,認(rèn)識全面”。XZL28資訊網(wǎng)——每日最新資訊28at.com

英語寫作同樣是大模型的一大難題。本次評測默認(rèn)所有大模型的聽力都獲得 30 分滿分。在閱讀和語言運用兩大項客觀問題的考試上,GPT-4o、百小應(yīng)、通義千問獲得 80 分滿分,豆包和文心一言 4.0 也接近滿分。XZL28資訊網(wǎng)——每日最新資訊28at.com

但是在 40 分的寫作考試中,最高分只有 29 分,分別由 GPT-4o 和百小應(yīng)獲得,各家模型的英語寫作主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。如果大模型在未來能夠提升寫作能力,獲得高考滿分并非難事。XZL28資訊網(wǎng)——每日最新資訊28at.com

在由歷史、地理、政治組成的新課標(biāo)文綜考卷評測中,GPT-4o 獲得 237 分的成績,平均分達(dá)到 79 分,優(yōu)于多數(shù)人類考生。國產(chǎn)大模型產(chǎn)品中,豆包的文綜成績最高,分?jǐn)?shù)達(dá)到 224.5 分,其中歷史科目拿到 82.5 分,在所有 9 款大模型中得分第一。XZL28資訊網(wǎng)——每日最新資訊28at.com

政治考試中,GPT-4o 出人意料的獲得了 88 分的最高分,百小應(yīng)和豆包得分超過 80。地理考卷則有大量圖片問題,對一眾大模型是不小的挑戰(zhàn),圖像理解能力較強的 GPT-4o 得到最高分,但僅有 68 分。XZL28資訊網(wǎng)——每日最新資訊28at.com

河南高考分?jǐn)?shù)段統(tǒng)計數(shù)據(jù)顯示,GPT-4o 的 562 分在文科考生中排名 8811 名,相當(dāng)于人類考生的前 2.45%。而僅次于 GPT-4o、位列國產(chǎn) AI 第一名的豆包大模型文科成績 542.5 分,超過文科一本線 20 分,處于前 4.27% 的位置。XZL28資訊網(wǎng)——每日最新資訊28at.com

由此可見,在過去一年多時間里,國產(chǎn) AI 技術(shù)能力獲得了長足進步,目前已經(jīng)接近國際頂尖大模型的水平。XZL28資訊網(wǎng)——每日最新資訊28at.com

理科考試成績有待提高,AI 并非全能

與人類頂尖考生相比,大模型在數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科上差距極大,包括 GPT-4o 在內(nèi)的所有大模型都無法達(dá)到及格水平。盡管在語文、英語兩科上能獲得高分,大模型的理科最好成績還無法進入人類考生的前 30%。XZL28資訊網(wǎng)——每日最新資訊28at.com

以數(shù)學(xué)試卷為例,9 款大模型產(chǎn)品中,僅 GPT-4o、文心一言 4.0 和豆包獲得 60 分以上成績(滿分 150 分),目前的大模型只能正確推理步驟相對簡單的問題。XZL28資訊網(wǎng)——每日最新資訊28at.com

據(jù)測試機構(gòu)透露,豆包等大模型能準(zhǔn)確運用求導(dǎo)公式和三角函數(shù)定理,但是面對較為復(fù)雜的推導(dǎo)和證明問題就很難繼續(xù)得分。XZL28資訊網(wǎng)——每日最新資訊28at.com

重點考查實驗探究能力的化學(xué)和物理試卷,各模型平均分更是只有 34 分和 39 分(滿分為 100 和 110)。化學(xué)單項最高分由豆包獲得,成績?yōu)?49.5 分,GPT-4o 僅有 42 分。XZL28資訊網(wǎng)——每日最新資訊28at.com

大模型在應(yīng)對考試的靈活性上也不如人類。例如物理有一道送分題,人類考生根據(jù)“時間不會倒流”可以排除錯誤選項,輕易選對正確答案“C”,大模型則幾乎全軍覆沒。XZL28資訊網(wǎng)——每日最新資訊28at.com

XZL28資訊網(wǎng)——每日最新資訊28at.com

要學(xué)會像人類一樣思考和解決問題,大模型還有很長的路要走。XZL28資訊網(wǎng)——每日最新資訊28at.com

不過,據(jù)麥肯錫報告分析,大模型的價值創(chuàng)造潛力驚人,到 2030 年,有望在全球推動 49 萬億人民幣的經(jīng)濟增量。XZL28資訊網(wǎng)——每日最新資訊28at.com

而目前,從技術(shù)創(chuàng)新到商業(yè)落地,大模型已經(jīng)開始在為我們的日常工作生活和各行業(yè)的 AI 轉(zhuǎn)型提供動能。XZL28資訊網(wǎng)——每日最新資訊28at.com

雖然生成式 AI 目前確實還有不足,路漫漫其修遠(yuǎn),但相信在以豆包大模型為代表的眾多生成式 AI 技術(shù)和產(chǎn)品的共同發(fā)展和努力下,未來簡單的高考試卷對于它們來說將不再是挑戰(zhàn),更廣泛的應(yīng)用場景唱,給出更加完美的答卷。XZL28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4833-0.html大模型 2024 高考發(fā)榜,豆包等三款國產(chǎn) AI 考上文科一本線

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 華為聯(lián)合清華大學(xué)發(fā)布《AI 終端白皮書》:生成式 AI 時代終端的未來路在何方?

下一篇: 訊飛星火大模型 V4.0 發(fā)布會直播(視頻)

標(biāo)簽:
  • 熱門焦點
  • 內(nèi)容行業(yè)大變天,爆款全靠AI?

    出品 | 微果醬(wjam123456)作者 | 陳出木題圖 | 文心一格 AI的發(fā)展之快出乎所有人的預(yù)料,似乎一夜之間便呼嘯而來。無論是資本的風(fēng)向標(biāo),抑或是生活工作的輔助、流量口,還是茶余飯
  • B端難做:留給魔琺科技的時間不多了

    來源:零態(tài)LT元宇宙泡沫正在碎裂,進入2023年后這一賽道熱度一直在遞減。今年2月,微軟解散了成立僅四個月的工業(yè)元宇宙部門;今年3月,該公司2017年收購的虛擬現(xiàn)實社交平臺AltspaceVR
  • 避坑指南:遠(yuǎn)離具有這些特性的NFT

    關(guān)于NFT,在我們的文章中一直以來都是常駐嘉賓,不止因為NFT背后隱藏的潛力,更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手,OpenSea、庫里、ERC115、視覺中國、
  • 冰墩墩還能火多久?

    作者:田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰,冰墩墩當(dāng)仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推,以及日
  • 字節(jié)覓《原神》,騰訊元宇宙,游戲新王戰(zhàn)舊神?

    文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞,“得不到的永遠(yuǎn)在騷動”,這句話用到如今國內(nèi)頭部游戲平臺再合適不過。隨著《原神》的異軍突起,使得頭部游戲大廠感受
  • 中國銀保監(jiān)管委提示:謹(jǐn)慎投資,勿做接盤俠

    中國銀保監(jiān)管委,發(fā)布一則風(fēng)險提示,內(nèi)容圍繞防范以“元宇宙”名義進行的非法集資風(fēng)險。原文如下:近期,一些不法分子蹭熱點,以“元宇宙投資項目”“元宇宙鏈游”等名
  • 2021年中國元宇宙行業(yè)用戶行為分析熱點報告

    元宇宙網(wǎng)絡(luò)熱度高漲,中國網(wǎng)民對虛擬生態(tài)興趣濃厚。艾媒咨詢數(shù)據(jù)顯示,超六成的網(wǎng)民對“元宇宙”了解程度較高,在元宇宙較基礎(chǔ)的游戲領(lǐng)域,超九成的人對VR游戲更感興
  • 冬奧會數(shù)字收藏品升溫,市場再現(xiàn)“一墩難求”

    根據(jù)公開信息顯示,國際奧委會官方授權(quán)的冰墩墩數(shù)字盲盒于北京時間2月12日凌晨在nWayPlay平臺發(fā)售,總數(shù)為500個,每個99美元,每人限購5個。此外,不同的奧運徽章數(shù)字藏
  • 元宇宙專題二:GameFi 深度解析,元宇宙內(nèi)容雛形顯現(xiàn)

    GameFi=Game(游戲)+DEFI(去中心化金融),核心特點為“Play to Earn”。通過技術(shù)與去中心化價值觀賦能,GameFi 游戲資產(chǎn)化身為NFT 和代幣上鏈,具備了可驗證性和流通性;開
Top 主站蜘蛛池模板: 景德镇市| 社旗县| 上杭县| 永康市| 泰和县| 大悟县| 安西县| 淳安县| 杭锦旗| 保亭| 辉县市| 平南县| 宣武区| 东城区| 天等县| 广宗县| 太保市| 民权县| 崇义县| 乾安县| 沿河| 绥滨县| 湘潭县| 新昌县| 吉安市| 白山市| 宁津县| 榆中县| 靖宇县| 罗田县| 五台县| 鄂托克前旗| 喀喇沁旗| 徐水县| 若羌县| 温州市| 甘肃省| 丘北县| 清苑县| 封丘县| 保德县|