日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

上海人工智能實驗室發布首個 AI 高考評測結果:語數英總分最高 303 分,數學全部不及格

來源: 責編: 時間:2024-06-22 16:27:51 205觀看
導讀 6 月 20 日消息,上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結果。據介紹,2024 年全國高考甫一結束,該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進行高考“語數外”全卷能力測

6 月 20 日消息,上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結果。據介紹,2024 年全國高考甫一結束,該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進行高考“語數外”全卷能力測試。GXt28資訊網——每日最新資訊28at.com

評測采用全國新課標 I 卷,參與評測的所有開源模型開源時間均早于高考,確保評測“閉卷”性。同時,成績由具有高考評卷經驗的教師人工評判,更加接近真實閱卷標準。GXt28資訊網——每日最新資訊28at.com

該機構表示,Qwen2-72B、GPT-4o 及書生?浦語 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過 70%。大部分模型“考生”語文、英語科目表現良好,但數學方面仍有很大提升空間。GXt28資訊網——每日最新資訊28at.com

具體來看,InternLM2-20B-WQX 取得了數學單科的最高分,超越包括 GPT-4o 在內的所有模型。GXt28資訊網——每日最新資訊28at.com

注:此次參與“大模型高考”評測的產品包含 GPT-4o 及其他 6 個模型。為公平起見,此次評測沒有納入商用閉源模型。GXt28資訊網——每日最新資訊28at.com

Mixtral 8x22B:法國 AI 創業公司 Mistral 于 2024 年 4 月 17 日開源的對話模型。GXt28資訊網——每日最新資訊28at.com

Yi-1.5-34B:零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。GXt28資訊網——每日最新資訊28at.com

GLM-4-9B:智譜 AI 于 2024 年 6 月 4 日推出的最新一代預訓練模型 GLM-4 系列的開源版本。GXt28資訊網——每日最新資訊28at.com

InternLM2-20B-WQX:上海人工智能實驗室于 2024 年 6 月 4 日開源的書生?浦語 2.0 系列文曲星大語言模型。GXt28資訊網——每日最新資訊28at.com

Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對話模型。GXt28資訊網——每日最新資訊28at.com

Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。GXt28資訊網——每日最新資訊28at.com

語數外三科加起來的滿分為 420 分,此次高考測試結果顯示,阿里通義千問 2-72B 排名第一,為 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能實驗室的書生?浦語 2.0 排名第三,三個大模型的得分率均超過 70%。來自法國大模型初創公司的 Mistral 排名末尾,僅拿下 185 分。GXt28資訊網——每日最新資訊28at.com

GXt28資訊網——每日最新資訊28at.com

數學是所有大模型的短板,平均得分率僅有 36%,參與測試的大模型無一及格。GXt28資訊網——每日最新資訊28at.com

GXt28資訊網——每日最新資訊28at.com

此外,閱卷教師也對大模型表現進行了整體分析,為模型能力提升策略提供參考。GXt28資訊網——每日最新資訊28at.com

語文

模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。GXt28資訊網——每日最新資訊28at.com

大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。GXt28資訊網——每日最新資訊28at.com

多數模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。GXt28資訊網——每日最新資訊28at.com

數學

大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。GXt28資訊網——每日最新資訊28at.com

大模型的公式記憶能力較強,但是無法在解題過程中靈活引用。GXt28資訊網——每日最新資訊28at.com

英語

英語整體表現良好,但部分模型由于不適應題型,在七選五、完形填空等題型得分率較低。GXt28資訊網——每日最新資訊28at.com

大模型英語作文普遍存在因超出字數限制而扣分的情況,而人類考生多因為字數不夠扣分。GXt28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4723-0.html上海人工智能實驗室發布首個 AI 高考評測結果:語數英總分最高 303 分,數學全部不及格

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: B站開源輕量級 Index-1.9B 系列模型:2.8T 訓練數據,支持角色扮演

下一篇: 振興鄉村發展 助力青少年教育 中國三星連續十一年蟬聯企業社會責任榜外企第一

標簽:
  • 熱門焦點
  • 元宇宙終究沒火過兩年

    來源:傳播體操在ChatGPT快速破圈的同時,元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力,但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
  • 在元宇宙賣酸奶,這波聯動燃爆了!

    來源:品牌頭版 或許,每個人心中都住著一個小饞孩。可能是童年時百吃不厭,覺得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;還有可能,是某種不知為什么,就是很愛吃的
  • 10億基金,李彥宏呼喚下一個AI獨角獸

    ©?深響原創 · 作者|何文 AI太熱了。 在海外,OpenAI估值已超270億美元、英偉達市值破萬億、微軟把GPT整合進了全線產品。在國內,百度、阿里、華為、商湯等大公司,以及
  • 企業熱、用戶冷,元宇宙第一站將是“營銷場”?

    如果說2021年底什么最火熱,那元宇宙當之無愧。“萬物皆可元宇宙”似乎成為新的流行語,在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日,有消息傳
  • 2022年元宇宙系列報告:UGC當道,XR帶來新交互體驗

    UGC作為元宇宙的主要內容創作模式,已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面,UGC模式勾勒了元宇宙的邊界,現今元宇宙UGC模式的主要呈現方式以元宇宙概念
  • 元宇宙畫廊體驗報告:有點頭疼。

    2 月 10 日,Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強現實藝術品。“我們現在在虛擬世界中嗎?時間好像變長了” 我問身后排隊的人。我
  • 想進入web3.0?來看看哪些工作適合你

    隨著對加密貨幣需求的增加,加密領域的工作的數量也在增加。以下是一些非技術性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區塊鏈領域的求職
  • 對諷刺無動于衷,Nori將碳市場放在區塊鏈上

    當我們聊氣候問題的解決方案時,以太坊區塊鏈應該不是最首想到的,但這正是Nori所選擇的方案,它建立了一個引擎,鼓勵農民使用負碳耕作方法,將空氣中的碳抽出并放回地
  • 這場虛擬發布會,當面“造假”!

    英偉達去年4月份那場發布會,你曾看出什么不對勁的地方嗎?你品,你細品——在計算機圖形學頂會SIGGRAPH 2021上,英偉達通過一部紀錄片自曝:那場發布會內藏玄機~你看到
Top 主站蜘蛛池模板: 西藏| 宁德市| 乌兰浩特市| 大连市| 陵川县| 石棉县| 崇信县| 麻栗坡县| 仪陇县| 南康市| 马边| 中江县| 五常市| 亚东县| 奉化市| 镇雄县| 阿荣旗| 桑植县| 瓮安县| 廊坊市| 诸暨市| 安吉县| 洞头县| 阿巴嘎旗| 南靖县| 合肥市| 诸暨市| 梅河口市| 确山县| 星子县| 锡林浩特市| 广汉市| 南澳县| 青州市| 长兴县| 镇安县| 安阳县| 且末县| 临颍县| 阿坝| 泗阳县|