Mixtral 8x22B:法國(guó)AI公司Mistral于2024年4月17日開源的對(duì)話" />
近日,上海人工智能實(shí)驗(yàn)室公布了首個(gè)AI高考全卷評(píng)測(cè)結(jié)果,展示了GPT-4o與六個(gè)開源模型在面對(duì)高考語(yǔ)文、數(shù)學(xué)、英語(yǔ)試卷時(shí)的表現(xiàn)。
此次參與測(cè)試的開源模型如下:
此次選擇的六款模型均在高考前開源,這避免了開發(fā)者使用高考試題訓(xùn)練模型,從而“作弊”。
此次測(cè)試結(jié)果如下:
可以看出,總成績(jī)方面阿里的Qwen2-72B排名第一,成績(jī)303分;GPYT-4o得分296分排名第二;第三則是來(lái)自上海人工智能實(shí)驗(yàn)室的InternLM2-20B-WQX,295.5分。
不過,有趣的是,數(shù)學(xué)成為了此次測(cè)試中所有大模型的短板,150分的試卷,沒有一款模型能夠達(dá)到90分的及格分。
從結(jié)果來(lái)看,目前各家的大模型對(duì)于語(yǔ)義理解、文字溝通已經(jīng)有了相對(duì)不錯(cuò)的表現(xiàn),但面對(duì)數(shù)學(xué)這樣強(qiáng)邏輯運(yùn)算的領(lǐng)域,AI還是會(huì)力不從心。
本文鏈接:http://www.www897cc.com/showinfo-22-95035-0.htmlAI“高考”成績(jī)出爐:數(shù)學(xué)全滅
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com