日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

大模型 2024 高考發榜,豆包等三款國產 AI 考上文科一本線

來源: 責編: 時間:2024-06-28 17:09:12 173觀看
導讀 眼下,全國各地的高考成績陸續出爐,各種關于考生考了多少分的新聞也在不斷登上頭條。而最近,有一批特殊考生的成績也出爐了,他們就是由各家 AI 大模型組成的“考試天團”。大模型考上文科本科,豆包拿下國產 AI 最高

眼下,全國各地的高考成績陸續出爐,各種關于考生考了多少分的新聞也在不斷登上頭條。41J28資訊網——每日最新資訊28at.com

而最近,有一批特殊考生的成績也出爐了,他們就是由各家 AI 大模型組成的“考試天團”。41J28資訊網——每日最新資訊28at.com

大模型考上文科本科,豆包拿下國產 AI 最高分

6 月 24 日,在極客公園最新發布的高考新課標 Ⅰ 卷大模型評測報告中,GPT-4o 以 562 分排名文科總分第一。國內產品中,字節跳動旗下的豆包拔得頭籌,成績是 542.5 分。41J28資訊網——每日最新資訊28at.com

再往后,依次是百度文心一言 4.0 的 537.5 分、百川智能“百小應”的 521 分。本次大模型高考評測與河南省考卷完全相同,河南高考錄取分數線顯示,文科本科一批錄取分數線為 521 分,豆包等三款國產 AI 成功沖上一本線。41J28資訊網——每日最新資訊28at.com

41J28資訊網——每日最新資訊28at.com

我們知道,當前生成式 AI 大模型技術正處于商用普及的初期,小到每個人的工作、生活,大到千行百業的生產、創作,都在逐漸受到來自 AI 大模型技術的賦能。41J28資訊網——每日最新資訊28at.com

但同時我們也應該看到,生成式 AI 尚處于發展初級階段,AI 是否足夠“聰明”,仍然是影響相關技術和產品體驗的基本要素。41J28資訊網——每日最新資訊28at.com

所以,用高考題來測試 AI 大模型,確實不失為一個有趣又直觀的評判大模型能力的方式。41J28資訊網——每日最新資訊28at.com

下面讓我們具體看看不同大模型在面對高考試卷時的表現。41J28資訊網——每日最新資訊28at.com

語言能力是優勢,豆包大模型作文獲好評

具體來看這次高考卷大模型評測的詳細情況。首先,語文、英語的語言類考試,是大模型有能力和人類考生較量的賽場,多家產品能拿到客觀題目的滿分或接近滿分。41J28資訊網——每日最新資訊28at.com

憑借中文語言的“主場優勢”,三款國產大模型產品獲得了語文考試前三名,分別是百小應、字節豆包和騰訊元寶,得分依次為 128 分、125.5 分和 120.5 分。除了少數開放性的閱讀理解和語言文字運用問題,各家大模型主要丟分在語文寫作上。41J28資訊網——每日最新資訊28at.com

41J28資訊網——每日最新資訊28at.com

(圖自:極客公園)

作為本次評測的語文作文閱卷人,北京市級骨干教師、懷柔區語文學科帶頭人夏老師曾多次參加全國高考語文閱卷。41J28資訊網——每日最新資訊28at.com

夏老師認為:“Al 寫出的文章大多有清晰完整的結構,有邏輯性,語言通順流暢。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”41J28資訊網——每日最新資訊28at.com

不過這其中,豆包大模型的作文在匿名閱卷中,獲得閱卷老師的好評:41J28資訊網——每日最新資訊28at.com

文章中顯出的對就業結構、倫理方面的擔心,展現出豆包已經具有不錯的思想深度和思辨能力。在立住“問題”后,豆包隨即用反問句自然過渡,引出三個排比段提出解決問題的方法 —— 保持“問題意識”。其中用發展的眼光分析問題,結合現實生活揭示問題產生的根源和危害的部分頗為亮點,并且整體上“結構嚴謹,層層推進,語句流暢,認識全面”。41J28資訊網——每日最新資訊28at.com

英語寫作同樣是大模型的一大難題。本次評測默認所有大模型的聽力都獲得 30 分滿分。在閱讀和語言運用兩大項客觀問題的考試上,GPT-4o、百小應、通義千問獲得 80 分滿分,豆包和文心一言 4.0 也接近滿分。41J28資訊網——每日最新資訊28at.com

但是在 40 分的寫作考試中,最高分只有 29 分,分別由 GPT-4o 和百小應獲得,各家模型的英語寫作主要丟分在表達空泛、缺少細節上。如果大模型在未來能夠提升寫作能力,獲得高考滿分并非難事。41J28資訊網——每日最新資訊28at.com

在由歷史、地理、政治組成的新課標文綜考卷評測中,GPT-4o 獲得 237 分的成績,平均分達到 79 分,優于多數人類考生。國產大模型產品中,豆包的文綜成績最高,分數達到 224.5 分,其中歷史科目拿到 82.5 分,在所有 9 款大模型中得分第一。41J28資訊網——每日最新資訊28at.com

政治考試中,GPT-4o 出人意料的獲得了 88 分的最高分,百小應和豆包得分超過 80。地理考卷則有大量圖片問題,對一眾大模型是不小的挑戰,圖像理解能力較強的 GPT-4o 得到最高分,但僅有 68 分。41J28資訊網——每日最新資訊28at.com

河南高考分數段統計數據顯示,GPT-4o 的 562 分在文科考生中排名 8811 名,相當于人類考生的前 2.45%。而僅次于 GPT-4o、位列國產 AI 第一名的豆包大模型文科成績 542.5 分,超過文科一本線 20 分,處于前 4.27% 的位置。41J28資訊網——每日最新資訊28at.com

由此可見,在過去一年多時間里,國產 AI 技術能力獲得了長足進步,目前已經接近國際頂尖大模型的水平。41J28資訊網——每日最新資訊28at.com

理科考試成績有待提高,AI 并非全能

與人類頂尖考生相比,大模型在數學、物理、化學等數理學科上差距極大,包括 GPT-4o 在內的所有大模型都無法達到及格水平。盡管在語文、英語兩科上能獲得高分,大模型的理科最好成績還無法進入人類考生的前 30%。41J28資訊網——每日最新資訊28at.com

以數學試卷為例,9 款大模型產品中,僅 GPT-4o、文心一言 4.0 和豆包獲得 60 分以上成績(滿分 150 分),目前的大模型只能正確推理步驟相對簡單的問題。41J28資訊網——每日最新資訊28at.com

據測試機構透露,豆包等大模型能準確運用求導公式和三角函數定理,但是面對較為復雜的推導和證明問題就很難繼續得分。41J28資訊網——每日最新資訊28at.com

重點考查實驗探究能力的化學和物理試卷,各模型平均分更是只有 34 分和 39 分(滿分為 100 和 110)。化學單項最高分由豆包獲得,成績為 49.5 分,GPT-4o 僅有 42 分。41J28資訊網——每日最新資訊28at.com

大模型在應對考試的靈活性上也不如人類。例如物理有一道送分題,人類考生根據“時間不會倒流”可以排除錯誤選項,輕易選對正確答案“C”,大模型則幾乎全軍覆沒。41J28資訊網——每日最新資訊28at.com

41J28資訊網——每日最新資訊28at.com

要學會像人類一樣思考和解決問題,大模型還有很長的路要走。41J28資訊網——每日最新資訊28at.com

不過,據麥肯錫報告分析,大模型的價值創造潛力驚人,到 2030 年,有望在全球推動 49 萬億人民幣的經濟增量。41J28資訊網——每日最新資訊28at.com

而目前,從技術創新到商業落地,大模型已經開始在為我們的日常工作生活和各行業的 AI 轉型提供動能。41J28資訊網——每日最新資訊28at.com

雖然生成式 AI 目前確實還有不足,路漫漫其修遠,但相信在以豆包大模型為代表的眾多生成式 AI 技術和產品的共同發展和努力下,未來簡單的高考試卷對于它們來說將不再是挑戰,更廣泛的應用場景唱,給出更加完美的答卷。41J28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4833-0.html大模型 2024 高考發榜,豆包等三款國產 AI 考上文科一本線

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 華為聯合清華大學發布《AI 終端白皮書》:生成式 AI 時代終端的未來路在何方?

下一篇: 訊飛星火大模型 V4.0 發布會直播(視頻)

標簽:
  • 熱門焦點
  • 新周期,誰在堅守窄門?

    來源:錦緞今日的投資者恐怕已經忘記了,在OpenAI創造出ChatGPT這一殺器的前夜,生成式AI也曾經是一道窄門,窄到連馬斯克都差點失去了信心。在當時的輿論眼中,AGI的道路不夠性感,不夠
  • 虛擬人再升級,企業可以解放雙手了?

    來源:伯虎財經今天想跟大家來嘮嘮AI,其實聊到這個話題很多人都不陌生了。在ChatGPT和AIGC大熱背后,還有一位低調的“大佬”——虛擬人。比如咱們熟知的虛
  • 游戲玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個脫胎于現實世界,又與現實世界平行、相互影響,并且始終在線的虛擬世
  • “啫喱”超越微信登頂:首款“元宇宙社交App”會曇花一現嗎?

    作者| 赤木瓶子如何終結“曇花一現”的命運,是潮流社交產品的長期命題,如今,在元宇宙浪潮的洗禮下,這一命題正在迎來新的可能性。近段時間,一款名為“啫喱”的社交A
  • 萬字專訪Vitalik Buterin:以太坊將成為主流和最安全的基礎層

    Vitalik Buterin 在 19 歲時撰寫了以太坊白皮書。他的目標簡單而全面,即創建一個“世界計算機”,旨在成為所有在線應用程序的靈活基礎層,無需任何第三方。自 2015
  • AI特效、虛擬人、數字盲盒,來看看元宇宙如何融合冬奧會!

    今天是冬奧會比賽的第12天,截至目前所累計的成績,中國代表團已經取得了冬奧歷史最佳戰績。全世界的人都在關注著這場盛事,為奧運健兒吶喊助威。谷愛凌、徐夢桃、
  • 音樂NFT平臺里的下一匹黑馬是誰?

    NFT 銷售額在 2021 年開始暴漲,從 2018 年的僅 4069 萬美元的交易量,到 2021 年,NFT 交易量飆升至 442 億美元以上,并不斷刷新記錄并達到新的高度。預測到2025 年N
  • 在元宇宙開會是什么樣一種體驗

    空間就是一切還記得面對面的會議嗎?就在不久前,與會者需要飛到遙遠的目的地,并進行鼓舞人心的對話、網絡、免費食物,甚至可能會有一兩個很好的小組討論。隨之而來
  • 想進入web3.0?來看看哪些工作適合你

    隨著對加密貨幣需求的增加,加密領域的工作的數量也在增加。以下是一些非技術性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區塊鏈領域的求職

猜你喜歡

    SQL Error: select * from ***_ecms_news13 where id in(236,128,79,103,40,) limit 6
Top 主站蜘蛛池模板: 孝义市| 尤溪县| 闽侯县| 宣武区| 平泉县| 苏尼特右旗| 广州市| 阿拉善左旗| 海丰县| 临漳县| 德格县| 泌阳县| 阆中市| 通山县| 泊头市| 利辛县| 大田县| 芜湖市| 莱州市| 花垣县| 滁州市| 潞西市| 托里县| 库尔勒市| 郯城县| 永安市| 时尚| 贡觉县| 阿尔山市| 宜川县| 庆城县| 迁西县| 武穴市| 壶关县| 琼海市| 玉门市| 长治市| 绵竹市| 莒南县| 珠海市| 枝江市|