9 月 14 日消息,一項新研究發(fā)現(xiàn),人類讀取指針式時鐘的準確率可達 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準確率僅為 13.3%,該結(jié)果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。

阿萊克?薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業(yè)的 11 個大型語言模型與 5 名人類展開正面較量。該基準測試包含 180 個定制的指針式時鐘及 720 道測試題,遵循“人類易上手、AI 難突破”的設計思路,這一思路在 ARC-AGI、SimpleBench 等基準測試中也有所體現(xiàn)。
為確保公平性并避免與模型訓練數(shù)據(jù)重疊,薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨特的鐘面設計,融合了羅馬數(shù)字與阿拉伯數(shù)字、不同朝向、時針標識、鏡像布局及彩色背景等元素。每種設計他都制作了 5 個不同的時鐘,總共有 180 個時鐘。
每個時鐘均通過四類問題進行測試:讀取時間、時間計算、按特定角度調(diào)整指針,以及時區(qū)轉(zhuǎn)換。薩法爾根據(jù)時鐘類型設置了不同的誤差允許范圍,例如,僅含時針的時鐘比同時具備時針、分針、秒針的時鐘誤差容忍度更高。
薩法爾表示,相較于“人類終極測試”(Humanity's Last Exam)這類側(cè)重知識儲備的測試,ClockBench 對 AI 模型的難度更高。測試結(jié)果表明,即便面對看似簡單的視覺任務,AI 與人類的差距仍十分顯著。
谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準確率位居榜首,Gemini 2.5 Flash 緊隨其后,準確率為 10.5%。GPT-5 排名第三,準確率 8.4%,且調(diào)整模型的推理預算對提升準確率效果甚微。

Grok 4 模型表現(xiàn)墊底,準確率僅 0.7%,這一結(jié)果頗為出人意料,因為該模型在其他基準測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時鐘判定為“無效”,但實際上 180 個時鐘中僅 37 個顯示的是“不可能時間”。這種極度謹慎的方式意味著,從技術(shù)層面來講,Grok 4 的正確答案數(shù)量最多,但這只是通過隨機將時鐘標記為無效實現(xiàn)的。
Anthropic 公司的 Claude 4 Sonnet(準確率 4.2%)與 Claude 4.1 Opus(準確率 5.6%)表現(xiàn)同樣不佳。研究還發(fā)現(xiàn),61.7% 的時鐘未能被任何一個 AI 模型正確讀取。
相較于準確率,誤差的嚴重程度更能反映問題本質(zhì)。人類讀取時間的中位誤差僅為 3 分鐘,而表現(xiàn)最佳的 AI 模型中位誤差達 1 小時,性能最差的 AI 模型誤差約為 3 小時,對于 12 小時制時鐘而言,這幾乎和隨機猜測差不多。

注意到,部分鐘面特征對 AI 而言難度極高:當鐘面采用羅馬數(shù)字時,AI 準確率降至 3.2%;采用圓形數(shù)字時,準確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會對 AI 的判斷造成干擾。
僅含時針的時鐘對 AI 而言相對容易(準確率 23.6%),這得益于其更高的誤差容忍度。采用阿拉伯數(shù)字和基礎(chǔ)表盤的標準時鐘,也能讓 AI 取得相對更好的成績。

測試還獲得了一個意外發(fā)現(xiàn):當 AI 模型成功讀取時間后,它們在時間計算、指針調(diào)整或時區(qū)轉(zhuǎn)換任務中幾乎都能得出正確結(jié)果。這意味著,AI 面臨的挑戰(zhàn)并非“進行時間相關(guān)的數(shù)學運算”,而是“從視覺信息中讀取時間”這一初始步驟。
薩法爾認為,背后原因可能有三點:其一,讀取指針式時鐘對視覺推理能力是一項嚴峻考驗;其二,罕見或特殊的鐘面設計在訓練數(shù)據(jù)中出現(xiàn)頻率極低;其三,將鐘面視覺信息轉(zhuǎn)化為文字描述,對當前 AI 模型而言很可能是一項難題。
ClockBench 被定位為一項長期基準測試。其完整數(shù)據(jù)集目前處于保密狀態(tài),以避免污染未來 AI 的訓練過程,但已有一個規(guī)模較小的公開版本可供測試使用。
盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現(xiàn)優(yōu)于隨機猜測,且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過,這些能力能否通過“擴大現(xiàn)有方法規(guī)模”得到提升,還是需要全新技術(shù)路徑來突破,目前仍是一個待解的問題。
一年前,中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板,但當時的結(jié)果要好得多。彼時,GPT-4o 模型在包含“讀時鐘、讀儀表”的儀表盤任務中,準確率達到 54.8%。而此次 ClockBench 測試中,AI 的最高準確率僅為 13.3%,這一差距既表明新基準測試難度顯著提升,也反映出 AI 的時鐘讀取能力并未取得明顯進步。
本文鏈接:http://www.www897cc.com/showinfo-45-27648-0.html新研究:人類讀指針式時鐘準確率達 89.1%,頂尖 AI 僅 13.3%
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com