Mixtral 8x22B:法國AI公司Mistral于2024年4月17日開源的對話" />
近日,上海人工智能實驗室公布了首個AI高考全卷評測結果,展示了GPT-4o與六個開源模型在面對高考語文、數學、英語試卷時的表現。
此次參與測試的開源模型如下:
此次選擇的六款模型均在高考前開源,這避免了開發者使用高考試題訓練模型,從而“作弊”。
此次測試結果如下:
可以看出,總成績方面阿里的Qwen2-72B排名第一,成績303分;GPYT-4o得分296分排名第二;第三則是來自上海人工智能實驗室的InternLM2-20B-WQX,295.5分。
不過,有趣的是,數學成為了此次測試中所有大模型的短板,150分的試卷,沒有一款模型能夠達到90分的及格分。
從結果來看,目前各家的大模型對于語義理解、文字溝通已經有了相對不錯的表現,但面對數學這樣強邏輯運算的領域,AI還是會力不從心。
本文鏈接:http://www.www897cc.com/showinfo-22-95035-0.htmlAI“高考”成績出爐:數學全滅
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com