日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

上海人工智能實驗室發(fā)布首個 AI 高考評測結(jié)果:語數(shù)英總分最高 303 分,數(shù)學(xué)全部不及格

來源: 責(zé)編: 時間:2024-06-22 16:27:51 164觀看
導(dǎo)讀 6 月 20 日消息,上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結(jié)果。據(jù)介紹,2024 年全國高考甫一結(jié)束,該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進(jìn)行高考“語數(shù)外”全卷能力測

6 月 20 日消息,上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結(jié)果。據(jù)介紹,2024 年全國高考甫一結(jié)束,該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進(jìn)行高考“語數(shù)外”全卷能力測試。KZG28資訊網(wǎng)——每日最新資訊28at.com

評測采用全國新課標(biāo) I 卷,參與評測的所有開源模型開源時間均早于高考,確保評測“閉卷”性。同時,成績由具有高考評卷經(jīng)驗的教師人工評判,更加接近真實閱卷標(biāo)準(zhǔn)。KZG28資訊網(wǎng)——每日最新資訊28at.com

該機(jī)構(gòu)表示,Qwen2-72B、GPT-4o 及書生?浦語 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過 70%。大部分模型“考生”語文、英語科目表現(xiàn)良好,但數(shù)學(xué)方面仍有很大提升空間。KZG28資訊網(wǎng)——每日最新資訊28at.com

具體來看,InternLM2-20B-WQX 取得了數(shù)學(xué)單科的最高分,超越包括 GPT-4o 在內(nèi)的所有模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

注:此次參與“大模型高考”評測的產(chǎn)品包含 GPT-4o 及其他 6 個模型。為公平起見,此次評測沒有納入商用閉源模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

Mixtral 8x22B:法國 AI 創(chuàng)業(yè)公司 Mistral 于 2024 年 4 月 17 日開源的對話模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

Yi-1.5-34B:零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

GLM-4-9B:智譜 AI 于 2024 年 6 月 4 日推出的最新一代預(yù)訓(xùn)練模型 GLM-4 系列的開源版本。KZG28資訊網(wǎng)——每日最新資訊28at.com

InternLM2-20B-WQX:上海人工智能實驗室于 2024 年 6 月 4 日開源的書生?浦語 2.0 系列文曲星大語言模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對話模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。KZG28資訊網(wǎng)——每日最新資訊28at.com

語數(shù)外三科加起來的滿分為 420 分,此次高考測試結(jié)果顯示,阿里通義千問 2-72B 排名第一,為 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能實驗室的書生?浦語 2.0 排名第三,三個大模型的得分率均超過 70%。來自法國大模型初創(chuàng)公司的 Mistral 排名末尾,僅拿下 185 分。KZG28資訊網(wǎng)——每日最新資訊28at.com

KZG28資訊網(wǎng)——每日最新資訊28at.com

數(shù)學(xué)是所有大模型的短板,平均得分率僅有 36%,參與測試的大模型無一及格。KZG28資訊網(wǎng)——每日最新資訊28at.com

KZG28資訊網(wǎng)——每日最新資訊28at.com

此外,閱卷教師也對大模型表現(xiàn)進(jìn)行了整體分析,為模型能力提升策略提供參考。KZG28資訊網(wǎng)——每日最新資訊28at.com

語文

模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同模型的文言文閱讀理解能力差距較大。KZG28資訊網(wǎng)——每日最新資訊28at.com

大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。KZG28資訊網(wǎng)——每日最新資訊28at.com

多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。KZG28資訊網(wǎng)——每日最新資訊28at.com

數(shù)學(xué)

大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。KZG28資訊網(wǎng)——每日最新資訊28at.com

大模型的公式記憶能力較強(qiáng),但是無法在解題過程中靈活引用。KZG28資訊網(wǎng)——每日最新資訊28at.com

英語

英語整體表現(xiàn)良好,但部分模型由于不適應(yīng)題型,在七選五、完形填空等題型得分率較低。KZG28資訊網(wǎng)——每日最新資訊28at.com

大模型英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生多因為字?jǐn)?shù)不夠扣分。KZG28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4723-0.html上海人工智能實驗室發(fā)布首個 AI 高考評測結(jié)果:語數(shù)英總分最高 303 分,數(shù)學(xué)全部不及格

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: B站開源輕量級 Index-1.9B 系列模型:2.8T 訓(xùn)練數(shù)據(jù),支持角色扮演

下一篇: 振興鄉(xiāng)村發(fā)展 助力青少年教育 中國三星連續(xù)十一年蟬聯(lián)企業(yè)社會責(zé)任榜外企第一

標(biāo)簽:
  • 熱門焦點
  • VR/AR迷失元宇宙“硝煙”

    不溫不火的VR/AR可穿戴設(shè)備因元宇宙崛起火了一陣,又隨著元宇宙回歸平靜。1月份,微軟在 Surface 設(shè)備、HoloLens 混合現(xiàn)實硬件和 Xbox 等部門裁員,其中負(fù)責(zé)混合現(xiàn)實硬件(MR)的Holo
  • 如何對一款 NFT 項目進(jìn)行價值評估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導(dǎo) Web3 和 NFT 領(lǐng)域的企業(yè)家,因為我相信我們正在見證社會
  • 傳騰訊已推出全新XR業(yè)務(wù);摩托羅拉正打造5GXR頸戴式計算組件

    今日熱點:傳騰訊已推出全新XR業(yè)務(wù);摩托羅拉與Verizon合作打造5G XR頸戴式計算組件;小米AR購物導(dǎo)航專利獲授權(quán);VR一體機(jī)Simula One放棄眾籌并開放直接預(yù)訂;VR游戲《
  • 元宇宙畫廊體驗報告:有點頭疼。

    2 月 10 日,Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強(qiáng)現(xiàn)實藝術(shù)品。“我們現(xiàn)在在虛擬世界中嗎?時間好像變長了” 我問身后排隊的人。我
  • 美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

    今天,Billboard宣布與流行的NFT頭像集World of Women(WoW)建立新的伙伴關(guān)系,向NFT生態(tài)系統(tǒng)又邁進(jìn)了一步。在這次合作中,WoW的創(chuàng)建者Yam Karkai將幫助這個音樂行業(yè)巨
  • HTC Vive推出元宇宙平臺Viverse;騰訊投資小米生態(tài)鏈AR眼鏡廠商

    今日熱點:HTC Vive正式推出元宇宙平臺Viverse;騰訊投資小米生態(tài)鏈AR眼鏡廠商北京蜂巢科技;面部追蹤和眼動追蹤是Quest下一版本的“重點”;索尼PSVR 2將推遲至2023
  • Staking 收益翻倍?

    以太坊質(zhì)押可能很快就會有兩倍的利潤。Coinbase 估計,在 1 月份以太坊網(wǎng)絡(luò)合并后,持有 ETH 的回報將翻倍。增長預(yù)期假設(shè)來自加密貨幣交易所 Coinbase 的估計是準(zhǔn)
  • 虛擬鄧麗君后,數(shù)字人賽道開啟3.0時代

    “如果右腦時代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發(fā)數(shù)字人形象時,自己的團(tuán)隊在內(nèi)部“卷”了一下:“當(dāng)我們翻閱大量歷史典籍的時候,蘇小妹找到
  • 爆發(fā)在即的Layer2賽道百花齊放,誰將是領(lǐng)跑者?

    還記得幾年前最早我們提起ETH擴(kuò)容,首先想到就是Layer2,而Layer2里,首先想到的是閃電網(wǎng)絡(luò),狀態(tài)通道,Plasma…然后折騰了幾年,發(fā)現(xiàn)并沒有什么用,許多項目方和資本也等不
Top 主站蜘蛛池模板: 赤水市| 汨罗市| 天台县| 那曲县| 宁城县| 水城县| 华亭县| 鹿邑县| 喀喇沁旗| 双桥区| 通城县| 抚宁县| 甘洛县| 怀来县| 富裕县| 株洲市| 东兰县| 二连浩特市| 和林格尔县| 汝南县| 龙门县| 永川市| 桂阳县| 昭通市| 巫山县| 无棣县| 宜章县| 沾化县| 阜南县| 平远县| 荥阳市| 阿瓦提县| 玉屏| 扶风县| 垣曲县| 钟祥市| 碌曲县| 祁东县| 牟定县| 镇巴县| 鄂伦春自治旗|