當(dāng)前位置：首頁(yè) > 科技 > 手機(jī)

AI“高考”成績(jī)出爐：數(shù)學(xué)全滅

來(lái)源：責(zé)編：時(shí)間：2024-06-20 15:13:40 141觀看

導(dǎo)讀近日，上海人工智能實(shí)驗(yàn)室公布了首個(gè)AI高考全卷評(píng)測(cè)結(jié)果，展示了GPT-4o與六個(gè)開源模型在面對(duì)高考語(yǔ)文、數(shù)學(xué)、英語(yǔ)試卷時(shí)的表現(xiàn)。此次參與測(cè)試的開源模型如下：
Mixtral 8x22B：法國(guó)AI公司Mistral于2024年4月17日開源的對(duì)話

近日，上海人工智能實(shí)驗(yàn)室公布了首個(gè)AI高考全卷評(píng)測(cè)結(jié)果，展示了GPT-4o與六個(gè)開源模型在面對(duì)高考語(yǔ)文、數(shù)學(xué)、英語(yǔ)試卷時(shí)的表現(xiàn)。

此次參與測(cè)試的開源模型如下：

Mixtral 8x22B：法國(guó)AI公司Mistral于2024年4月17日開源的對(duì)話模型。
Yi-1.5-34B：零一萬(wàn)物公司于2024年5月12日開源的Yi-1.5系列最大的模型。
GLM-4-9B：智譜AI于2024年6月4日推出的最新一代預(yù)訓(xùn)練模型GLM-4系列的開源版本。
InternLM2-20B-WQX：上海人工智能實(shí)驗(yàn)室于2024年6月4日開源的書生?浦語(yǔ)2.0系列文曲星大語(yǔ)言模型。
Qwen2-57B：阿里巴巴于2024年6月6日開源的Qwen2系列MoE對(duì)話模型。
Qwen2-72B：阿里巴巴于2024年6月6日開源的72B稠密模型。

此次選擇的六款模型均在高考前開源，這避免了開發(fā)者使用高考試題訓(xùn)練模型，從而“作弊”。

此次測(cè)試結(jié)果如下：

可以看出，總成績(jī)方面阿里的Qwen2-72B排名第一，成績(jī)303分；GPYT-4o得分296分排名第二；第三則是來(lái)自上海人工智能實(shí)驗(yàn)室的InternLM2-20B-WQX，295.5分。

不過，有趣的是，數(shù)學(xué)成為了此次測(cè)試中所有大模型的短板，150分的試卷，沒有一款模型能夠達(dá)到90分的及格分。

從結(jié)果來(lái)看，目前各家的大模型對(duì)于語(yǔ)義理解、文字溝通已經(jīng)有了相對(duì)不錯(cuò)的表現(xiàn)，但面對(duì)數(shù)學(xué)這樣強(qiáng)邏輯運(yùn)算的領(lǐng)域，AI還是會(huì)力不從心。

本文鏈接：http://www.www897cc.com/showinfo-22-95035-0.htmlAI“高考”成績(jī)出爐：數(shù)學(xué)全滅

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： MIX Flip消息匯總：可能是最強(qiáng)8Gen3小折疊

下一篇：產(chǎn)能充足華為Pura 70系列也開始降價(jià)了

標(biāo)簽：

熱門焦點(diǎn)

5月iOS設(shè)備好評(píng)榜：iPhone 14僅排第43？

來(lái)到新的一月，安兔兔的各個(gè)榜單又重新匯總了數(shù)據(jù)，像安卓陣營(yíng)的榜單都有著比較大的變動(dòng)，不過iOS由于設(shè)備的更新?lián)Q代并沒有那么快，所以相對(duì)來(lái)說(shuō)變化并不大，特別是iOS好評(píng)榜，老款設(shè)
十個(gè)可以手動(dòng)編寫的 JavaScript 數(shù)組 API

JavaScript 中有很多API，使用得當(dāng)，會(huì)很方便，省力不少。你知道它的原理嗎? 今天這篇文章，我們將對(duì)它們進(jìn)行一次小總結(jié)。現(xiàn)在開始吧。1.forEach()forEach()用于遍歷數(shù)組接收一參
Automa-通過連接塊來(lái)自動(dòng)化你的瀏覽器

1、前言通過瀏覽器插件可實(shí)現(xiàn)自動(dòng)化腳本的錄制與編寫，具有代表性的工具就是：Selenium IDE、Katalon Recorder，對(duì)于簡(jiǎn)單的業(yè)務(wù)來(lái)說(shuō)可快速實(shí)現(xiàn)自動(dòng)化的上手工作。Selenium IDEKat
一文看懂為蘋果Vision Pro開發(fā)應(yīng)用程序

譯者 | 布加迪審校 | 重樓蘋果的Vision Pro是一款混合現(xiàn)實(shí)（MR）頭戴設(shè)備。Vision Pro結(jié)合了虛擬現(xiàn)實(shí)（VR）和增強(qiáng)現(xiàn)實(shí)（AR）的沉浸感。其高分辨率顯示屏、先進(jìn)的傳感器和強(qiáng)大的處理能力
2023年，我眼中的字節(jié)跳動(dòng)

此時(shí)此刻（2023年7月），字節(jié)跳動(dòng)從未上市，也從未公布過任何官方的上市計(jì)劃；但是這并不妨礙它成為中國(guó)最受關(guān)注的互聯(lián)網(wǎng)公司之一。從2016-17年的抖音強(qiáng)勢(shì)崛起，到2018年的“頭騰
2天漲粉255萬(wàn)，又一賽道在抖音爆火

來(lái)源：運(yùn)營(yíng)研究社作者 | 張知白編輯 | 楊佩汶設(shè)計(jì) | 晏談夢(mèng)潔這個(gè)暑期，旅游賽道徹底火了：有的「地方」火了——貴州村超旅游收入 1 個(gè)月超過 12 億；有的「博主」火了&m
梁柱接棒兩年，騰訊音樂闖出新路子

文丨田靜出品丨牛刀財(cái)經(jīng)（niudaocaijing）7月5日，企鵝FM發(fā)布官方公告稱由于業(yè)務(wù)調(diào)整，將于9月6日正式停止運(yùn)營(yíng)，這意味著騰訊音樂長(zhǎng)音頻業(yè)務(wù)走向消亡。騰訊在長(zhǎng)音頻領(lǐng)域還在摸索。為
超級(jí)標(biāo)準(zhǔn)版旗艦！iQOO 11S全球首發(fā)iQOO超算獨(dú)顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級(jí)旗艦都已悉數(shù)亮相，而下半年即將推出的頂級(jí)旗艦已經(jīng)成為了數(shù)碼圈爆料的主流，其中就包括全新的iQOO 11S系
OPPO K11搭載長(zhǎng)壽版100W超級(jí)閃充：26分鐘充滿100%

據(jù)此前官方宣布，OPPO將于7月25日也就是今天下午14:30舉辦新品發(fā)布會(huì)，屆時(shí)全新的OPPO K11將正式與大家見面，將主打旗艦影像，和同檔位競(jìng)品相比，其最大的賣

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

AI“高考”成績(jī)出爐：數(shù)學(xué)全滅

5月iOS設(shè)備好評(píng)榜：iPhone 14僅排第43？

十個(gè)可以手動(dòng)編寫的 JavaScript 數(shù)組 API

Automa-通過連接塊來(lái)自動(dòng)化你的瀏覽器

一文看懂為蘋果Vision Pro開發(fā)應(yīng)用程序

2023年，我眼中的字節(jié)跳動(dòng)

2天漲粉255萬(wàn)，又一賽道在抖音爆火

梁柱接棒兩年，騰訊音樂闖出新路子

超級(jí)標(biāo)準(zhǔn)版旗艦！iQOO 11S全球首發(fā)iQOO超算獨(dú)顯芯片

OPPO K11搭載長(zhǎng)壽版100W超級(jí)閃充：26分鐘充滿100%

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊