日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

新研究:人類讀指針式時鐘準確率達 89.1%,頂尖 AI 僅 13.3%

來源: 責編: 時間:2025-09-17 11:35:34 45觀看
導讀 9 月 14 日消息,一項新研究發(fā)現(xiàn),人類讀取指針式時鐘的準確率可達 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準確率僅為 13.3%,該結(jié)果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。阿萊克?薩法爾(Alek Saf

9 月 14 日消息,一項新研究發(fā)現(xiàn),人類讀取指針式時鐘的準確率可達 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準確率僅為 13.3%,該結(jié)果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。GtA28資訊網(wǎng)——每日最新資訊28at.com

GtA28資訊網(wǎng)——每日最新資訊28at.com

阿萊克?薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業(yè)的 11 個大型語言模型與 5 名人類展開正面較量。該基準測試包含 180 個定制的指針式時鐘及 720 道測試題,遵循“人類易上手、AI 難突破”的設計思路,這一思路在 ARC-AGI、SimpleBench 等基準測試中也有所體現(xiàn)。GtA28資訊網(wǎng)——每日最新資訊28at.com

為確保公平性并避免與模型訓練數(shù)據(jù)重疊,薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨特的鐘面設計,融合了羅馬數(shù)字與阿拉伯數(shù)字、不同朝向、時針標識、鏡像布局及彩色背景等元素。每種設計他都制作了 5 個不同的時鐘,總共有 180 個時鐘。GtA28資訊網(wǎng)——每日最新資訊28at.com

每個時鐘均通過四類問題進行測試:讀取時間、時間計算、按特定角度調(diào)整指針,以及時區(qū)轉(zhuǎn)換。薩法爾根據(jù)時鐘類型設置了不同的誤差允許范圍,例如,僅含時針的時鐘比同時具備時針、分針、秒針的時鐘誤差容忍度更高。GtA28資訊網(wǎng)——每日最新資訊28at.com

薩法爾表示,相較于“人類終極測試”(Humanity's Last Exam)這類側(cè)重知識儲備的測試,ClockBench 對 AI 模型的難度更高。測試結(jié)果表明,即便面對看似簡單的視覺任務,AI 與人類的差距仍十分顯著。GtA28資訊網(wǎng)——每日最新資訊28at.com

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準確率位居榜首,Gemini 2.5 Flash 緊隨其后,準確率為 10.5%。GPT-5 排名第三,準確率 8.4%,且調(diào)整模型的推理預算對提升準確率效果甚微。GtA28資訊網(wǎng)——每日最新資訊28at.com

GtA28資訊網(wǎng)——每日最新資訊28at.com

Grok 4 模型表現(xiàn)墊底,準確率僅 0.7%,這一結(jié)果頗為出人意料,因為該模型在其他基準測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時鐘判定為“無效”,但實際上 180 個時鐘中僅 37 個顯示的是“不可能時間”。這種極度謹慎的方式意味著,從技術(shù)層面來講,Grok 4 的正確答案數(shù)量最多,但這只是通過隨機將時鐘標記為無效實現(xiàn)的。GtA28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 公司的 Claude 4 Sonnet(準確率 4.2%)與 Claude 4.1 Opus(準確率 5.6%)表現(xiàn)同樣不佳。研究還發(fā)現(xiàn),61.7% 的時鐘未能被任何一個 AI 模型正確讀取。GtA28資訊網(wǎng)——每日最新資訊28at.com

相較于準確率,誤差的嚴重程度更能反映問題本質(zhì)。人類讀取時間的中位誤差僅為 3 分鐘,而表現(xiàn)最佳的 AI 模型中位誤差達 1 小時,性能最差的 AI 模型誤差約為 3 小時,對于 12 小時制時鐘而言,這幾乎和隨機猜測差不多。GtA28資訊網(wǎng)——每日最新資訊28at.com

GtA28資訊網(wǎng)——每日最新資訊28at.com

注意到,部分鐘面特征對 AI 而言難度極高:當鐘面采用羅馬數(shù)字時,AI 準確率降至 3.2%;采用圓形數(shù)字時,準確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會對 AI 的判斷造成干擾。GtA28資訊網(wǎng)——每日最新資訊28at.com

僅含時針的時鐘對 AI 而言相對容易(準確率 23.6%),這得益于其更高的誤差容忍度。采用阿拉伯數(shù)字和基礎(chǔ)表盤的標準時鐘,也能讓 AI 取得相對更好的成績。GtA28資訊網(wǎng)——每日最新資訊28at.com

GtA28資訊網(wǎng)——每日最新資訊28at.com

測試還獲得了一個意外發(fā)現(xiàn):當 AI 模型成功讀取時間后,它們在時間計算、指針調(diào)整或時區(qū)轉(zhuǎn)換任務中幾乎都能得出正確結(jié)果。這意味著,AI 面臨的挑戰(zhàn)并非“進行時間相關(guān)的數(shù)學運算”,而是“從視覺信息中讀取時間”這一初始步驟。GtA28資訊網(wǎng)——每日最新資訊28at.com

薩法爾認為,背后原因可能有三點:其一,讀取指針式時鐘對視覺推理能力是一項嚴峻考驗;其二,罕見或特殊的鐘面設計在訓練數(shù)據(jù)中出現(xiàn)頻率極低;其三,將鐘面視覺信息轉(zhuǎn)化為文字描述,對當前 AI 模型而言很可能是一項難題。GtA28資訊網(wǎng)——每日最新資訊28at.com

ClockBench 被定位為一項長期基準測試。其完整數(shù)據(jù)集目前處于保密狀態(tài),以避免污染未來 AI 的訓練過程,但已有一個規(guī)模較小的公開版本可供測試使用。GtA28資訊網(wǎng)——每日最新資訊28at.com

盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現(xiàn)優(yōu)于隨機猜測,且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過,這些能力能否通過“擴大現(xiàn)有方法規(guī)模”得到提升,還是需要全新技術(shù)路徑來突破,目前仍是一個待解的問題。GtA28資訊網(wǎng)——每日最新資訊28at.com

一年前,中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板,但當時的結(jié)果要好得多。彼時,GPT-4o 模型在包含“讀時鐘、讀儀表”的儀表盤任務中,準確率達到 54.8%。而此次 ClockBench 測試中,AI 的最高準確率僅為 13.3%,這一差距既表明新基準測試難度顯著提升,也反映出 AI 的時鐘讀取能力并未取得明顯進步。GtA28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-27648-0.html新研究:人類讀指針式時鐘準確率達 89.1%,頂尖 AI 僅 13.3%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI GPT-5 擁有博士級能力?谷歌 DeepMind CEO:無稽之談

下一篇: 科學家發(fā)現(xiàn) AI 能像人類一樣評估社交情境,科研效率遠超人工

標簽:
  • 熱門焦點
  • 人間誠實周鴻祎:360 All in 大模型的六個解讀

    主筆 / 村口有牛文章架構(gòu)師 / 毛自聰出品 / 巨頭財經(jīng)5月至今,人間躁動,各路大模型你方唱罷我登場,VC圈互聯(lián)網(wǎng)圈媒體圈已近癲狂。誰也沒想到,今日,360再度刷屏,老牌互聯(lián)網(wǎng)巨頭展現(xiàn)
  • 元宇宙是推動NFT發(fā)展的初始家園

    現(xiàn)在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數(shù)字資產(chǎn)帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • NFT藝術(shù)家Hayley Rincon 專訪:我的迷幻數(shù)字藝術(shù)之路

    Hayley Rincon是一位令人印象深刻才華橫溢的創(chuàng)作者,她的作品呈現(xiàn)出迷幻的氣息。今天就來聊聊她的藝術(shù)作品,和她自己的數(shù)字藝術(shù)之路。Hayley是加利福尼亞灣區(qū)的有
  • 想進入web3.0?來看看哪些工作適合你

    隨著對加密貨幣需求的增加,加密領(lǐng)域的工作的數(shù)量也在增加。以下是一些非技術(shù)性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區(qū)塊鏈領(lǐng)域的求職
  • 這個好萊塢影視制作公司涉足NFT,讓持有者在制作中發(fā)揮作用

    前米高梅首席執(zhí)行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室,提供 NFT,讓持有者在制作中發(fā)揮作用Electromagnetic Productions 創(chuàng)始
  • 以太坊面臨來自Fantom的巨大挑戰(zhàn)

    眾所周知,區(qū)塊鏈和加密貨幣項目經(jīng)常因其對環(huán)境的影響而受到批評。但是有一個非營利性的加密貨幣和區(qū)塊鏈項目說它比其他的更環(huán)保。今天老雅痞就給大家聊一聊加
  • 利用元宇宙平臺10天收入160萬,風口還是虎口?

    美國Meta平臺有限公司,也就是原來的臉書公司,9日宣布,公司旗下的虛擬現(xiàn)實應用《地平線世界》正式向美國和加拿大的18歲以上人群開放。這也是目前Meta推出的最具象
  • 元宇宙收割了誰

    作者:曉宇資本將元宇宙看作下一代互聯(lián)網(wǎng)的門票,畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里,先是號稱元宇宙第一股的沙盒游戲Roblox盛裝
  • 多位全國政協(xié)委員提交元宇宙提案,國金證券稱元宇宙仍處初期投資階段

    財聯(lián)社|區(qū)塊鏈日報2日訊 今日《元宇宙新鮮事》有:全國政協(xié)委員劉偉建議出臺“元宇宙中國”的頂層設計方案;國金證券稱元宇宙仍處初期投資龐大獲利不易階段;阿聯(lián)酋
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
国产精品久久久久久久电影| 欧美高清在线观看| 亚洲欧美日本国产有色| 欧美在线观看视频一区二区三区 | 国产精品久久午夜| 国产精品私房写真福利视频 | 亚洲自拍另类| 久久久另类综合| 欧美日韩成人在线| 国产伦精品一区二区三区免费| 精品99一区二区三区| 一本色道久久综合狠狠躁篇怎么玩 | 亚洲片国产一区一级在线观看| 在线视频中文亚洲| 久久久久久自在自线| 欧美日韩国产页| 国产一区二区在线观看免费| 亚洲精品视频一区二区三区| 久久成人免费电影| 欧美另类69精品久久久久9999| 国产欧美午夜| 日韩香蕉视频| 久久久久久亚洲精品不卡4k岛国| 欧美三级视频在线播放| 在线观看av不卡| 午夜日韩在线| 欧美日韩精品免费观看视频完整| 狠狠色综合网站久久久久久久| 中文欧美字幕免费| 欧美成人免费小视频| 国产亚洲精品久久久久动| 在线一区二区三区四区| 美女精品在线观看| 国产一区二区三区视频在线观看| 99精品视频一区| 免费成人性网站| 国产一区二区高清不卡| 亚洲午夜国产一区99re久久| 欧美不卡视频一区| 黄网站免费久久| 性做久久久久久久久| 国产精品v日韩精品| 日韩视频一区二区三区| 男男成人高潮片免费网站| 国产综合欧美在线看| 亚洲欧美日韩爽爽影院| 欧美视频在线观看免费| 亚洲精品欧美激情| 久久久久一区二区| 国产亚洲综合性久久久影院| 亚洲一区黄色| 欧美日韩综合网| 亚洲美女精品一区| 欧美成人蜜桃| 亚洲激情在线| 欧美福利电影网| 亚洲大片在线观看| 久久久久久久综合| 国产资源精品在线观看| 欧美一区二区久久久| 国产精品蜜臀在线观看| 一区二区欧美国产| 欧美日韩精品一区视频| 亚洲六月丁香色婷婷综合久久| 免费视频一区| 亚洲电影免费观看高清完整版在线| 久久久精品五月天| 国内精品亚洲| 久久久久久久久久久久久久一区 | 性xx色xx综合久久久xx| 国产精品久久久久永久免费观看| 一本色道久久综合亚洲精品高清| 欧美精品在线视频| 亚洲毛片网站| 欧美日韩美女一区二区| 99精品欧美一区二区三区综合在线| 欧美精品乱码久久久久久按摩| 亚洲国产精品成人va在线观看| 久久一区中文字幕| 亚洲第一天堂无码专区| 毛片av中文字幕一区二区| 亚洲高清精品中出| 欧美国产日本高清在线| 亚洲免费大片| 欧美无乱码久久久免费午夜一区| 一片黄亚洲嫩模| 欧美午夜视频| 性久久久久久久久| 激情六月婷婷久久| 老司机免费视频久久| 亚洲区国产区| 欧美日韩亚洲高清| 亚洲一区二区欧美日韩| 国产伦精品一区二区| 久久精品视频99| 亚洲国产91| 欧美日韩免费网站| 亚洲在线视频免费观看| 国产精品夜夜夜一区二区三区尤| 欧美中文在线字幕| 亚洲大胆人体在线| 欧美日本国产在线| 亚洲欧美三级伦理| 国内精品国语自产拍在线观看| 免费试看一区| 一级成人国产| 国产一区二区欧美| 欧美大片免费观看在线观看网站推荐| 亚洲毛片在线看| 国产精品一区二区三区久久久| 久久九九精品99国产精品| 亚洲黄色有码视频| 国产精品久久久久影院亚瑟| 久久九九热re6这里有精品| 亚洲欧洲在线视频| 国产精品视频观看| 久久天天综合| 一区二区三区国产精华| 国产精品一区二区三区观看| 毛片精品免费在线观看| 亚洲性感激情| 精品电影一区| 欧美婷婷久久| 久久人人97超碰精品888| 99国产欧美久久久精品| 国产欧美综合一区二区三区| 欧美成人免费在线视频| 亚洲欧美日韩国产| 久久久www成人免费毛片麻豆| 亚洲大片在线观看| 欧美日在线观看| 久久久久久久一区| 在线视频亚洲一区| 激情欧美丁香| 国产精品第一区| 毛片一区二区| 亚洲欧美视频| 亚洲日韩欧美视频| 国产欧美一区二区精品婷婷 | 久久免费国产| 亚洲素人一区二区| 亚洲电影欧美电影有声小说| 国产精品久久久久久久久果冻传媒| 久久伊伊香蕉| 午夜日韩电影| 亚洲精品之草原avav久久| 国产一区激情| 国产精品久久久久7777婷婷| 母乳一区在线观看| 欧美与欧洲交xxxx免费观看| 99www免费人成精品| 樱桃成人精品视频在线播放| 国产精品美女久久久| 欧美激情综合五月色丁香小说 | 欧美r片在线| 欧美一级午夜免费电影| 一区二区精品国产| 亚洲国产99精品国自产| 国产日韩精品一区二区三区 | 在线观看亚洲a| 国产精品一二三视频| 欧美精品乱码久久久久久按摩| 久久精品水蜜桃av综合天堂| 亚洲一区二区黄| 日韩视频精品在线观看| 亚洲春色另类小说| 国产一区日韩一区| 国产精品入口| 国产精品v欧美精品v日韩| 欧美精品免费播放| 毛片基地黄久久久久久天堂| 久久电影一区| 先锋a资源在线看亚洲| 这里只有精品丝袜| 日韩一级不卡| 亚洲人久久久| 亚洲国产精品悠悠久久琪琪| 黄色小说综合网站| 国产亚洲精品高潮| 国产乱码精品一区二区三| 国产精品v欧美精品v日韩| 欧美日韩国产综合视频在线观看中文| 蜜臀久久99精品久久久画质超高清| 久久精品伊人| 久久国产毛片| 久久激情视频| 久久精品成人一区二区三区| 亚久久调教视频| 欧美亚洲免费电影| 午夜视频一区| 性8sex亚洲区入口| 午夜精品国产更新| 午夜精品久久久久久久蜜桃app| 亚洲一区日本| 亚洲欧美日本国产专区一区| 亚洲香蕉成视频在线观看| 亚洲无亚洲人成网站77777| 亚洲视频一区在线观看| 亚洲午夜在线| 新片速递亚洲合集欧美合集| 欧美在线国产精品| 久久精品最新地址| 另类综合日韩欧美亚洲| 欧美大片国产精品|