日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁(yè) > 科技  > 資訊

AI參加高考,為何偏科嚴(yán)重

來(lái)源: 責(zé)編: 時(shí)間:2024-07-04 09:02:56 1139觀看
導(dǎo)讀  大模型參加高考,能考多少分?近日,科技創(chuàng)新交流平臺(tái)極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告,在參試大模型中,GPT-4o以562分的成績(jī)排名文科第一。參加評(píng)測(cè)的8款國(guó)產(chǎn)大模型中,字節(jié)跳動(dòng)旗下的豆包成績(jī)是542.5分,其后依次

  大模型參加高考,能考多少分?近日,科技創(chuàng)新交流平臺(tái)極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告,在參試大模型中,GPT-4o以562分的成績(jī)排名文科第一。參加評(píng)測(cè)的8款國(guó)產(chǎn)大模型中,字節(jié)跳動(dòng)旗下的豆包成績(jī)是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小應(yīng)”的521分。本次大模型高考評(píng)測(cè)與河南省考卷完全相同,以上3款國(guó)產(chǎn)大模型均超過(guò)河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名,相當(dāng)于前2.45%;豆包處于前4.27%,接近頂尖大模型的水平。TyM28資訊網(wǎng)——每日最新資訊28at.com

  文綜評(píng)測(cè)中,GPT-4o獲237分,優(yōu)于多數(shù)人類考生。國(guó)產(chǎn)大模型中,豆包文綜成績(jī)最高,得分224.5分,其中歷史達(dá)到82.5分,在所有9款大模型中排第一。地理考卷有大量圖片考題,圖像理解能力較強(qiáng)的GPT-4o得到最高分,但僅有68分。TyM28資訊網(wǎng)——每日最新資訊28at.com

  語(yǔ)文、英語(yǔ)評(píng)測(cè)中,多家大模型在客觀題上拿滿分。但寫作文是弱項(xiàng)。多次參加全國(guó)高考語(yǔ)文閱卷的北京市級(jí)骨干教師、懷柔區(qū)語(yǔ)文學(xué)科帶頭人夏老師是本次評(píng)測(cè)的作文閱卷人。她認(rèn)為,“AI作文有清晰完整的結(jié)構(gòu),有邏輯性,語(yǔ)言通順流暢,但缺乏感情和感染力”。同理,在40分的英語(yǔ)寫作考試中,大模型的最高分只有29分,主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。TyM28資訊網(wǎng)——每日最新資訊28at.com

  值得注意的是,大模型高考呈現(xiàn)出嚴(yán)重的偏科現(xiàn)象:數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科全線不及格,總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無(wú)法進(jìn)入理科考生的前30%。TyM28資訊網(wǎng)——每日最新資訊28at.com

  數(shù)學(xué)評(píng)測(cè)中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jī)(滿分150分)。大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理,但面對(duì)較為復(fù)雜的推導(dǎo)和證明問(wèn)題就很難得分。物理有一道送分的選擇題,人類考生根據(jù)“時(shí)間不會(huì)倒流”可以輕易選對(duì)答案,大模型則全軍覆沒。TyM28資訊網(wǎng)——每日最新資訊28at.com

  “目前的大語(yǔ)言模型本質(zhì)上是文字接龍,基于海量資料,預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞句。通過(guò)不斷預(yù)測(cè),生成連貫和完整的文本。應(yīng)對(duì)文科考試,大模型的用詞不準(zhǔn)或用了近義詞,不太影響評(píng)分。但理科考試考驗(yàn)推理和計(jì)算,比如一道題有五步推理,大模型走偏一步,答案就全錯(cuò)。而且大模型的訓(xùn)練數(shù)據(jù)中,文科語(yǔ)料要遠(yuǎn)遠(yuǎn)大于理科語(yǔ)料。”國(guó)內(nèi)一位大模型研發(fā)專家告訴科技日?qǐng)?bào)記者。TyM28資訊網(wǎng)——每日最新資訊28at.com

  近期,有一些國(guó)內(nèi)外大模型在奧數(shù)題評(píng)測(cè)(非奧數(shù)現(xiàn)場(chǎng)比賽)上拿到不錯(cuò)的成績(jī)。對(duì)此,該專家解釋,用大家都訓(xùn)練過(guò)的公開數(shù)據(jù)集評(píng)測(cè),大模型的準(zhǔn)確率很高;但用比較新的數(shù)據(jù)集去測(cè)試,準(zhǔn)確率就大大下降。最新的高考題是哪家大模型都沒有訓(xùn)練過(guò)的,考驗(yàn)的是數(shù)學(xué)推理和計(jì)算的泛化能力,這就暴露了大模型的短板。TyM28資訊網(wǎng)——每日最新資訊28at.com

  北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所教授穗志方近日也表示,大模型在中國(guó)高考、公務(wù)員考試和美國(guó)SAT考試等標(biāo)準(zhǔn)化考試中的表現(xiàn)是優(yōu)劣兼具的。一些大模型在SAT數(shù)學(xué)測(cè)試中表現(xiàn)優(yōu)異,但在復(fù)雜推理或特定知識(shí)領(lǐng)域中的表現(xiàn)不夠出色。TyM28資訊網(wǎng)——每日最新資訊28at.com

  “在大模型內(nèi)在機(jī)理沒有探究清楚的情況下,我們目前的評(píng)測(cè)路徑只能依靠從外部表現(xiàn)來(lái)推測(cè)內(nèi)在能力。”穗志方說(shuō),未來(lái)應(yīng)發(fā)展更系統(tǒng)的評(píng)測(cè)大綱、更具挑戰(zhàn)的評(píng)測(cè)任務(wù)、更科學(xué)的評(píng)測(cè)方法。AI是否比人類更適合考試?尚未可定論。(記者 楊雪)TyM28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-16-98676-0.htmlAI參加高考,為何偏科嚴(yán)重

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 北京亦莊將建設(shè)全域人工智能之城

下一篇: 電網(wǎng)工程造價(jià)控制邁入數(shù)智化階段

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 小米官宣:2023年上半年出貨量中國(guó)第一!

    今日早間,小米電視官方微博帶來(lái)消息,稱2023年小米電視上半年出貨量達(dá)到了中國(guó)第一,同時(shí)還表示小米電視的巨屏風(fēng)暴即將開始。“公布一個(gè)好消息2023年#小米電視上半年出貨量中國(guó)
  • 中興AX5400Pro+上手體驗(yàn):再升級(jí) 雙2.5G網(wǎng)口+USB 3.0這次全都有

    2021年11月的時(shí)候,中興先后發(fā)布了兩款路由器產(chǎn)品,中興AX5400和中興AX5400 Pro,從產(chǎn)品命名上就不難看出這是隸屬于同一系列的,但在外觀設(shè)計(jì)上這兩款產(chǎn)品可以說(shuō)是完全沒一點(diǎn)關(guān)系
  • 5月iOS設(shè)備好評(píng)榜:iPhone 14僅排第43?

    來(lái)到新的一月,安兔兔的各個(gè)榜單又重新匯總了數(shù)據(jù),像安卓陣營(yíng)的榜單都有著比較大的變動(dòng),不過(guò)iOS由于設(shè)備的更新?lián)Q代并沒有那么快,所以相對(duì)來(lái)說(shuō)變化并不大,特別是iOS好評(píng)榜,老款設(shè)
  • 在線圖片編輯器,支持PSD解析、AI摳圖等

    自從我上次分享一個(gè)人開發(fā)仿造稿定設(shè)計(jì)的圖片編輯器到現(xiàn)在,不知不覺已過(guò)去一年時(shí)間了,期間我經(jīng)歷了裁員失業(yè)、面試找工作碰壁,寒冬下一直沒有很好地履行計(jì)劃.....這些就放在日
  • 三萬(wàn)字盤點(diǎn) Spring 九大核心基礎(chǔ)功能

    大家好,我是三友~~今天來(lái)跟大家聊一聊Spring的9大核心基礎(chǔ)功能。話不多說(shuō),先上目錄:圖片友情提示,本文過(guò)長(zhǎng),建議收藏,嘿嘿嘿!一、資源管理資源管理是Spring的一個(gè)核心的基礎(chǔ)功能,不
  • 共享單車的故事講到哪了?

    來(lái)源丨海克財(cái)經(jīng)與共享充電寶相差不多,共享單車已很久沒有被國(guó)內(nèi)熱點(diǎn)新聞關(guān)照到了。除了一再漲價(jià)和用戶直呼用不起了。近日多家媒體再發(fā)報(bào)道稱,成都、天津、鄭州等地多個(gè)共享單
  • 認(rèn)真聊聊東方甄選:如何告別低垂的果實(shí)

    來(lái)源:山核桃作者:財(cái)經(jīng)無(wú)忌爆火一年后,俞敏洪和他的東方甄選依舊是頗受外界關(guān)心的“網(wǎng)紅”。7月5日至9日,為期5天的東方甄選“甘肅行”首次在自有App內(nèi)直播,
  • 造車兩年股價(jià)跌六成,小米的估值邏輯變了嗎?

    如果從小米官宣造車后的首個(gè)交易日起持有小米集團(tuán)的股票,那么截至2023年上半年最后一個(gè)交易日,投資者將浮虧59.16%,同區(qū)間的恒生科技指數(shù)跌幅為52.78%
  • 華為和江淮汽車合作開發(fā)百萬(wàn)元問(wèn)界MPV?雙方回應(yīng)來(lái)了

    8月1日消息,郭明錤今天在社交平臺(tái)發(fā)文稱,華為正在和江淮汽車合作,開發(fā)售價(jià)在100萬(wàn)元的問(wèn)界MPV,預(yù)計(jì)在2024年第2季度量產(chǎn),銷量目標(biāo)為上市首年交付5萬(wàn)輛。
Top 主站蜘蛛池模板: 上饶市| 崇文区| 五家渠市| 丰顺县| 边坝县| 丹江口市| 瑞金市| 晋州市| 万州区| 双鸭山市| 萨迦县| 科技| 望都县| 渭南市| 颍上县| 门头沟区| 社会| 古田县| 西藏| 密山市| 积石山| 会宁县| 溧水县| 开阳县| 天祝| 广饶县| 搜索| 龙胜| 武山县| 陆丰市| 临沂市| 龙川县| 太湖县| 罗城| 杨浦区| 香格里拉县| 贵州省| 大丰市| 长武县| 江永县| 申扎县|