當前位置：首頁 > 元宇宙 > AI

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

來源：責編：時間：2025-09-15 11:51:32 36觀看

導讀一項名為“ClockBench”的全新測試揭示，人類在讀取指針式時鐘方面的準確率高達89.1%，而當前最先進的人工智能模型準確率僅為13.3%。這一差距凸顯了AI在視覺推理能力上與人類的顯著差異，尤其是在處理復雜視覺信息時，AI的表

一項名為“ClockBench”的全新測試揭示，人類在讀取指針式時鐘方面的準確率高達89.1%，而當前最先進的人工智能模型準確率僅為13.3%。這一差距凸顯了AI在視覺推理能力上與人類的顯著差異，尤其是在處理復雜視覺信息時，AI的表現(xiàn)遠未達到預期水平。

該測試由研究者阿萊克·薩法爾設(shè)計，旨在通過定制化的指針式時鐘數(shù)據(jù)集，評估AI在視覺推理任務中的表現(xiàn)。測試中，來自6家企業(yè)的11個大型語言模型與5名人類參與者展開對比。數(shù)據(jù)集包含180個獨特的指針式時鐘，涵蓋36種鐘面設(shè)計，融合了羅馬數(shù)字與阿拉伯數(shù)字、不同朝向、時針標識、鏡像布局及彩色背景等元素，確保測試的復雜性和多樣性。

每個時鐘需通過四類問題測試：讀取時間、時間計算、按特定角度調(diào)整指針及時區(qū)轉(zhuǎn)換。為保證公平性，數(shù)據(jù)集從零構(gòu)建，避免與模型訓練數(shù)據(jù)重疊。測試結(jié)果顯示，AI模型在讀取時間時的中位誤差達1小時，而人類的中位誤差僅為3分鐘。性能最差的AI模型誤差甚至接近3小時，幾乎與隨機猜測無異。

在參與測試的AI模型中，谷歌旗下的Gemini 2.5 Pro以13.3%的準確率位居榜首，Gemini 2.5 Flash和GPT-5分別以10.5%和8.4%的準確率緊隨其后。然而，Grok 4模型的表現(xiàn)令人意外，其準確率僅0.7%，且將63.3%的時鐘判定為“無效”，遠高于實際無效時鐘的比例（180個中僅37個）。這種過度謹慎的策略雖在技術(shù)上增加了正確答案數(shù)量，但并未真正提升模型能力。

測試還發(fā)現(xiàn)，鐘面特征對AI判斷影響顯著。當鐘面采用羅馬數(shù)字時，AI準確率驟降至3.2%；采用圓形數(shù)字時，準確率也僅為4.5%。秒針、彩色背景及鏡像布局均會干擾AI的判斷。相比之下，僅含時針的時鐘（準確率23.6%）和采用阿拉伯數(shù)字的標準時鐘，能讓AI取得相對更好的成績。

一個意外發(fā)現(xiàn)是，AI模型在成功讀取時間后，能正確完成時間計算、指針調(diào)整或時區(qū)轉(zhuǎn)換任務。這表明，AI的挑戰(zhàn)并非在于時間相關(guān)的數(shù)學運算，而在于從視覺信息中提取時間的初始步驟。薩法爾分析，原因可能包括：指針式時鐘讀取對視覺推理能力要求極高；罕見或特殊的鐘面設(shè)計在訓練數(shù)據(jù)中極少出現(xiàn)；以及將視覺信息轉(zhuǎn)化為文字描述對當前AI模型而言難度較大。

ClockBench被定位為長期基準測試，其完整數(shù)據(jù)集目前保密，以避免污染未來AI的訓練過程，但已有一個公開版本供測試使用。盡管AI在該測試中得分普遍較低，薩法爾認為，性能最佳的模型已展現(xiàn)出基礎(chǔ)的視覺推理能力，優(yōu)于隨機猜測。然而，這些能力能否通過擴大現(xiàn)有方法規(guī)模提升，還是需要全新技術(shù)路徑突破，仍是一個待解的問題。

此前，中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似短板，但當時GPT-4o模型在包含“讀時鐘、讀儀表”的任務中準確率達54.8%。此次ClockBench測試中，AI最高準確率僅為13.3%，既表明新基準測試難度顯著提升，也反映出AI在時鐘讀取能力上并未取得明顯進步。

更多>同類資訊?OpenAI未來六年算力與研發(fā)投入或達3500億美元，2030年盈利穩(wěn)定性存疑?09-14

海馬emoji是否存在？ChatGPT等AI深陷“記憶迷局”反復糾錯難自明09-14

螞蟻開源聯(lián)合Inclusion AI發(fā)布大模型生態(tài)全景圖，呈現(xiàn)AI開源新特征與三大開發(fā)趨勢09-14

OpenAI稱GPT-5有博士級能力，谷歌DeepMind CEO：尚缺全面博士能力，AGI或需5到10年09-14

缺錢仍具洞察：陶哲軒直指AI在數(shù)學研究中隱性目標被忽視之困09-14谷歌DeepMind CEO：當前AI系統(tǒng)難達博士級，GPT-5綜合能力被指差距大09-14OpenAI 2024-2030年擬投巨資：算力租賃與研發(fā)成本高企，盈利前景存疑09-14

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數(shù)字生態(tài)如何崛起？09-14谷歌DeepMind CEO：當前AI系統(tǒng)難達博士級，GPT-5能力被指夸大09-14

新學期新氣象！北京1400余所中小學全學段開設(shè)人工智能通識課09-14

宇樹王興興福耀科大開講：AI時代機遇均等，新生當懷熱忱逐夢前行09-14

螞蟻開源2025外灘大會發(fā)布大模型全景圖，AI開發(fā)現(xiàn)三大趨勢：工具、路線與生態(tài)分化月 13 日，在 2025 Inclusion·外灘大會AI開源見解論壇上，螞蟻開源聯(lián)合Inclusion AI 發(fā)布了全新的《全球大模型開源開發(fā)生態(tài)全景與趨勢告》。本次發(fā)布的大模型開源開發(fā)生態(tài)全景圖共收錄了…09-14

?對話京東方陳炎順：AI驅(qū)動產(chǎn)業(yè)升級，未來三年500億研發(fā)攜手伙伴共拓新局?“早在2024年初，京東方就將AI提高到了企業(yè)的整體發(fā)展戰(zhàn)略”，陳炎順對作者表示，“一方面我們成立了AI+創(chuàng)新與應用委員會，要求以營業(yè)收入的0.5%來用于AI的研發(fā)。陳炎順指出，從CES到SID等國際展會上…09-14

OpenAI奧爾特曼坦言：ChatGPT問世后，模型細微調(diào)整牽動數(shù)億人思維行為致其難眠9月14日消息，據(jù)《財富》報道，OpenAI CEO 薩姆·奧爾特曼在接受采訪時表示，“自從 ChatGPT 推出以來，我就沒睡過一個好覺。” 奧爾特曼描述了監(jiān)管這項如今每天有數(shù)億人使用的技術(shù)的壓力，他擔憂的…09-14

上海創(chuàng)智學院：90后導師領(lǐng)航博士CEO逐夢機器人奇境挑戰(zhàn)未來2023年，劉鵬飛完成美國博后工作回國加盟上海交通大學，去年以雙聘的形式加盟創(chuàng)智學院，他深深感受時代的機遇正在眼前——“三個低概率事件”交匯：智能革命的發(fā)生、創(chuàng)智學院模式的獨一無二，學院對師生資源的傾斜。就…09-14點擊查看更多 +全站最新 鴻蒙智行MPV新車諜照現(xiàn)身智界品牌或迎新成員明年上半年有望上市

鴻蒙智行MPV新車諜照現(xiàn)身智界品牌或迎新成員明年上半年有望上市

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數(shù)字生態(tài)如何崛起？

抖音圖文創(chuàng)作新思路：精選素材+用心運營，輕松開啟自媒體變現(xiàn)路！

方形CMOS加持！iPhone 17前置攝像頭如何打破自拍構(gòu)圖限制？

?杭州全球農(nóng)創(chuàng)客大賽落幕：AI養(yǎng)豬、超濾凈水，青年科技繪就農(nóng)業(yè)新藍圖?

億級賣家吞吞揭秘：TikTok美區(qū)直播如何選渠道、控成本、定布局？熱門內(nèi)容

熱度攀升！千億科技龍頭頻獲機構(gòu)調(diào)研，業(yè)務增長透露哪些行業(yè)新動向？
蘋果加速AI布局，或收購兩家法國AI初創(chuàng)企業(yè)
DeepSeek V3.1大模型升級，適配國產(chǎn)新芯片，性能顯著提升
蘋果秋季發(fā)布會亮相iPhone 17系列："史上最薄"Air登場，Pro Max 2TB版定價17999元
?小米16系列或提前登場，首發(fā)驍龍8 Elite Gen5，9月機圈大戰(zhàn)一觸即發(fā)?
蘋果AI布局加速，或?qū)⒊饩拶Y收購歐洲兩大AI初創(chuàng)企業(yè)
紅米Note15系列前瞻：7s芯片、7000mAh大電池，防水新標桿即將登場
華為智能手表登頂全球，蘋果需直面挑戰(zhàn)求變革
科創(chuàng)板AI基金8月22日凈值飆升7.79%，重倉股表現(xiàn)搶眼
vivo X300系列新機入網(wǎng)：首發(fā)LYT-828+2億像素，衛(wèi)通版支持北斗衛(wèi)星短信
?字節(jié)跳動千人芯片團隊架構(gòu)調(diào)整，轉(zhuǎn)至新加坡子公司Picoheart引關(guān)注?
蘋果加速布局中國市場！Apple Intelligence和新版Siri或年底至明年上線
OpenAI沖刺5000億估值，GPT-5遇冷：資本狂歡與技術(shù)瓶頸的碰撞
華為云重組風暴：多部門整合，聚焦AI領(lǐng)域引發(fā)關(guān)注
科大訊飛2026秋招啟動，畢業(yè)兩年內(nèi)可投，多樣崗位等你來選！

本欄最新

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數(shù)字生態(tài)如何崛起？

新學期新氣象！北京1400余所中小學全學段開設(shè)人工智能通識課

宇樹王興興福耀科大開講：AI時代機遇均等，新生當懷熱忱逐夢前行

螞蟻開源2025外灘大會發(fā)布大模型全景圖，AI開發(fā)現(xiàn)三大趨勢：工具、路線與生態(tài)分化

?對話京東方陳炎順：AI驅(qū)動產(chǎn)業(yè)升級，未來三年500億研發(fā)攜手伙伴共拓新局?

OpenAI奧爾特曼坦言：ChatGPT問世后，模型細微調(diào)整牽動數(shù)億人思維行為致其難眠

本文鏈接：http://www.www897cc.com/showinfo-45-27565-0.html新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美國最大出版商CEO控訴谷歌：用單一爬蟲抓內(nèi)容助力AI，卻讓出版商陷入困境

下一篇： ?OpenAI未來六年算力與研發(fā)投入或達3500億美元，2030年盈利穩(wěn)定性存疑?

標簽：

熱門焦點

歐盟人工智能法案：四種AI系統(tǒng)風險類型的劃分及監(jiān)管措施

作者：趙志東蔡佳雯來源：區(qū)塊鏈日報該法案采用風險分級的規(guī)制路徑，將人工智能系統(tǒng)的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型，并針對不同類型施加了不同
元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

來源：首席品牌官從被稱為“元宇宙元年”的2021年開始，幾乎所有品牌都在迫不及待地“入駐”元宇宙。而一提及品牌們的元宇宙玩法，相信多數(shù)人腦海里首先浮現(xiàn)
元宇宙帶來沉浸式智能登錄？你學會了嗎？

備受資本市場寵愛的元宇宙概念，正掀起一番番波瀾。元宇宙作為虛實相融的互聯(lián)網(wǎng)應用和社會形態(tài)，與沉浸式體驗緊密相關(guān)。多重路徑，打造無感知沉浸式智能登錄《設(shè)計
如何對一款 NFT 項目進行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導 Web3 和 NFT 領(lǐng)域的企業(yè)家，因為我相信我們正在見證社會
權(quán)限風波過后 X2Y2如何挑戰(zhàn)OpenSea？

繼LooksRare之后，又一個OpenSea挑戰(zhàn)者X2Y2來了。上周，X2Y2宣布向超過86萬個OpenSea交易用戶發(fā)放X2Y2通證空投，并啟動了「掛單挖礦」的獎勵機制。這場早期激勵活動
2022年去中心化交易所會崛起嗎？

“在某個時候，去中心化衍生品的交易量可能會超過去中心化現(xiàn)貨交易所。”DEX 越來越多地轉(zhuǎn)向第二層解決方案。“數(shù)字化金融市場的概念以及如何沿著以用戶為中心
趙長鵬預測SoicalFi為今年主要驅(qū)動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現(xiàn)了快速創(chuàng)新，我們可能會在 2022 年看到蓬勃發(fā)展的興趣和創(chuàng)新，其中 Soc
元宇宙平臺會是上世紀末的互聯(lián)網(wǎng)嗎？

“元宇宙”火了好幾個月，互聯(lián)網(wǎng)大廠忙于布局，資本市場熱烈追捧。然而很多人還是看不明白，更多的人覺得這是一場泡沫，一場騙局。一開始接觸這個怪里怪氣的名詞，感覺
全球十大元宇宙概念游戲

A股市場中，不少游戲公司早早搭上了元宇宙概念。舉例，中青寶宣稱將發(fā)布一款元宇宙概念的模擬經(jīng)營類游戲，盡管游戲尚在研發(fā)中，這一消息已經(jīng)讓中青寶的股價在51個交易

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

歐盟人工智能法案：四種AI系統(tǒng)風險類型的劃分及監(jiān)管措施

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

元宇宙帶來沉浸式智能登錄？你學會了嗎？

如何對一款 NFT 項目進行價值評估？

權(quán)限風波過后 X2Y2如何挑戰(zhàn)OpenSea？

2022年去中心化交易所會崛起嗎？

趙長鵬預測SoicalFi為今年主要驅(qū)動力，新的機會在哪里？

元宇宙平臺會是上世紀末的互聯(lián)網(wǎng)嗎？

全球十大元宇宙概念游戲

最新推薦

元宇宙步入暗夜

元宇宙風歸何處？

NFTs正迎來數(shù)十億美元的繁榮--NFT零工經(jīng)濟從業(yè)者開始暴賺

NFT世界的藝術(shù)家名單

韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關(guān)系

虛擬偶像行業(yè)的商用價值逐漸凸顯，IP生態(tài)圈也逐漸成型

猜你喜歡

熱門推薦

相關(guān)資訊