一項名為“ClockBench”的全新測試揭示,人類在讀取指針式時鐘方面的準確率高達89.1%,而當前最先進的人工智能模型準確率僅為13.3%。這一差距凸顯了AI在視覺推理能力上與人類的顯著差異,尤其是在處理復雜視覺信息時,AI的表現(xiàn)遠未達到預期水平。
![]()
該測試由研究者阿萊克·薩法爾設(shè)計,旨在通過定制化的指針式時鐘數(shù)據(jù)集,評估AI在視覺推理任務中的表現(xiàn)。測試中,來自6家企業(yè)的11個大型語言模型與5名人類參與者展開對比。數(shù)據(jù)集包含180個獨特的指針式時鐘,涵蓋36種鐘面設(shè)計,融合了羅馬數(shù)字與阿拉伯數(shù)字、不同朝向、時針標識、鏡像布局及彩色背景等元素,確保測試的復雜性和多樣性。
每個時鐘需通過四類問題測試:讀取時間、時間計算、按特定角度調(diào)整指針及時區(qū)轉(zhuǎn)換。為保證公平性,數(shù)據(jù)集從零構(gòu)建,避免與模型訓練數(shù)據(jù)重疊。測試結(jié)果顯示,AI模型在讀取時間時的中位誤差達1小時,而人類的中位誤差僅為3分鐘。性能最差的AI模型誤差甚至接近3小時,幾乎與隨機猜測無異。
在參與測試的AI模型中,谷歌旗下的Gemini 2.5 Pro以13.3%的準確率位居榜首,Gemini 2.5 Flash和GPT-5分別以10.5%和8.4%的準確率緊隨其后。然而,Grok 4模型的表現(xiàn)令人意外,其準確率僅0.7%,且將63.3%的時鐘判定為“無效”,遠高于實際無效時鐘的比例(180個中僅37個)。這種過度謹慎的策略雖在技術(shù)上增加了正確答案數(shù)量,但并未真正提升模型能力。
![]()
測試還發(fā)現(xiàn),鐘面特征對AI判斷影響顯著。當鐘面采用羅馬數(shù)字時,AI準確率驟降至3.2%;采用圓形數(shù)字時,準確率也僅為4.5%。秒針、彩色背景及鏡像布局均會干擾AI的判斷。相比之下,僅含時針的時鐘(準確率23.6%)和采用阿拉伯數(shù)字的標準時鐘,能讓AI取得相對更好的成績。
一個意外發(fā)現(xiàn)是,AI模型在成功讀取時間后,能正確完成時間計算、指針調(diào)整或時區(qū)轉(zhuǎn)換任務。這表明,AI的挑戰(zhàn)并非在于時間相關(guān)的數(shù)學運算,而在于從視覺信息中提取時間的初始步驟。薩法爾分析,原因可能包括:指針式時鐘讀取對視覺推理能力要求極高;罕見或特殊的鐘面設(shè)計在訓練數(shù)據(jù)中極少出現(xiàn);以及將視覺信息轉(zhuǎn)化為文字描述對當前AI模型而言難度較大。
ClockBench被定位為長期基準測試,其完整數(shù)據(jù)集目前保密,以避免污染未來AI的訓練過程,但已有一個公開版本供測試使用。盡管AI在該測試中得分普遍較低,薩法爾認為,性能最佳的模型已展現(xiàn)出基礎(chǔ)的視覺推理能力,優(yōu)于隨機猜測。然而,這些能力能否通過擴大現(xiàn)有方法規(guī)模提升,還是需要全新技術(shù)路徑突破,仍是一個待解的問題。
此前,中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似短板,但當時GPT-4o模型在包含“讀時鐘、讀儀表”的任務中準確率達54.8%。此次ClockBench測試中,AI最高準確率僅為13.3%,既表明新基準測試難度顯著提升,也反映出AI在時鐘讀取能力上并未取得明顯進步。
更多>同類資訊?OpenAI未來六年算力與研發(fā)投入或達3500億美元,2030年盈利穩(wěn)定性存疑?09-14
海馬emoji是否存在?ChatGPT等AI深陷“記憶迷局”反復糾錯難自明09-14
螞蟻開源聯(lián)合Inclusion AI發(fā)布大模型生態(tài)全景圖,呈現(xiàn)AI開源新特征與三大開發(fā)趨勢09-14
OpenAI稱GPT-5有博士級能力,谷歌DeepMind CEO:尚缺全面博士能力,AGI或需5到10年09-14
缺錢仍具洞察:陶哲軒直指AI在數(shù)學研究中隱性目標被忽視之困09-14谷歌DeepMind CEO:當前AI系統(tǒng)難達博士級,GPT-5綜合能力被指差距大09-14OpenAI 2024-2030年擬投巨資:算力租賃與研發(fā)成本高企,盈利前景存疑09-14
岳麓大會十二年:從“閉門論道”到“鏈上生長”,湖南數(shù)字生態(tài)如何崛起?09-14谷歌DeepMind CEO:當前AI系統(tǒng)難達博士級,GPT-5能力被指夸大09-14
新學期新氣象!北京1400余所中小學全學段開設(shè)人工智能通識課09-14
宇樹王興興福耀科大開講:AI時代機遇均等,新生當懷熱忱逐夢前行09-14
螞蟻開源2025外灘大會發(fā)布大模型全景圖,AI開發(fā)現(xiàn)三大趨勢:工具、路線與生態(tài)分化月 13 日,在 2025 Inclusion·外灘大會AI開源見解論壇上,螞蟻開源聯(lián)合Inclusion AI 發(fā)布了全新的《全球大模型開源開發(fā)生態(tài)全景與趨勢告》。本次發(fā)布的大模型開源開發(fā)生態(tài)全景圖共收錄了…09-14
?對話京東方陳炎順:AI驅(qū)動產(chǎn)業(yè)升級,未來三年500億研發(fā)攜手伙伴共拓新局?“早在2024年初,京東方就將AI提高到了企業(yè)的整體發(fā)展戰(zhàn)略”,陳炎順對作者表示,“一方面我們成立了AI+創(chuàng)新與應用委員會,要求以營業(yè)收入的0.5%來用于AI的研發(fā)。 陳炎順指出,從CES到SID等國際展會上…09-14
OpenAI奧爾特曼坦言:ChatGPT問世后,模型細微調(diào)整牽動數(shù)億人思維行為致其難眠9月14日消息,據(jù)《財富》報道,OpenAI CEO 薩姆·奧爾特曼在接受采訪時表示,“自從 ChatGPT 推出以來,我就沒睡過一個好覺。” 奧爾特曼描述了監(jiān)管這項如今每天有數(shù)億人使用的技術(shù)的壓力,他擔憂的…09-14
上海創(chuàng)智學院:90后導師領(lǐng)航 博士CEO逐夢 機器人奇境挑戰(zhàn)未來2023年,劉鵬飛完成美國博后工作回國加盟上海交通大學,去年以雙聘的形式加盟創(chuàng)智學院,他深深感受時代的機遇正在眼前——“三個低概率事件”交匯:智能革命的發(fā)生、創(chuàng)智學院模式的獨一無二,學院對師生資源的傾斜。就…09-14點擊查看更多 +全站最新
鴻蒙智行MPV新車諜照現(xiàn)身 智界品牌或迎新成員 明年上半年有望上市
岳麓大會十二年:從“閉門論道”到“鏈上生長”,湖南數(shù)字生態(tài)如何崛起?
抖音圖文創(chuàng)作新思路:精選素材+用心運營,輕松開啟自媒體變現(xiàn)路!
方形CMOS加持!iPhone 17前置攝像頭如何打破自拍構(gòu)圖限制?
?杭州全球農(nóng)創(chuàng)客大賽落幕:AI養(yǎng)豬、超濾凈水,青年科技繪就農(nóng)業(yè)新藍圖?
億級賣家吞吞揭秘:TikTok美區(qū)直播如何選渠道、控成本、定布局?熱門內(nèi)容
岳麓大會十二年:從“閉門論道”到“鏈上生長”,湖南數(shù)字生態(tài)如何崛起?
新學期新氣象!北京1400余所中小學全學段開設(shè)人工智能通識課
宇樹王興興福耀科大開講:AI時代機遇均等,新生當懷熱忱逐夢前行
螞蟻開源2025外灘大會發(fā)布大模型全景圖,AI開發(fā)現(xiàn)三大趨勢:工具、路線與生態(tài)分化
?對話京東方陳炎順:AI驅(qū)動產(chǎn)業(yè)升級,未來三年500億研發(fā)攜手伙伴共拓新局?
OpenAI奧爾特曼坦言:ChatGPT問世后,模型細微調(diào)整牽動數(shù)億人思維行為致其難眠
本文鏈接:http://www.www897cc.com/showinfo-45-27565-0.html新研究:人類讀指針鐘準確率近九成,頂尖AI模型準確率僅一成多
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com