當前位置：首頁 > 元宇宙 > AI

新研究：人類讀指針式時鐘準確率達 89.1%，頂尖 AI 僅 13.3%

來源：責編：時間：2025-09-17 11:35:34 45觀看

導讀 9 月 14 日消息，一項新研究發(fā)現(xiàn)，人類讀取指針式時鐘的準確率可達 89.1%，而目前最優(yōu)秀的人工智能（AI）模型準確率僅為 13.3%，該結(jié)果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。阿萊克?薩法爾（Alek Saf

9 月 14 日消息，一項新研究發(fā)現(xiàn)，人類讀取指針式時鐘的準確率可達 89.1%，而目前最優(yōu)秀的人工智能（AI）模型準確率僅為 13.3%，該結(jié)果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。

阿萊克?薩法爾（Alek Safar）采用名為“ClockBench”的全新測試，讓來自 6 家企業(yè)的 11 個大型語言模型與 5 名人類展開正面較量。該基準測試包含 180 個定制的指針式時鐘及 720 道測試題，遵循“人類易上手、AI 難突破”的設計思路，這一思路在 ARC-AGI、SimpleBench 等基準測試中也有所體現(xiàn)。

為確保公平性并避免與模型訓練數(shù)據(jù)重疊，薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨特的鐘面設計，融合了羅馬數(shù)字與阿拉伯數(shù)字、不同朝向、時針標識、鏡像布局及彩色背景等元素。每種設計他都制作了 5 個不同的時鐘，總共有 180 個時鐘。

每個時鐘均通過四類問題進行測試：讀取時間、時間計算、按特定角度調(diào)整指針，以及時區(qū)轉(zhuǎn)換。薩法爾根據(jù)時鐘類型設置了不同的誤差允許范圍，例如，僅含時針的時鐘比同時具備時針、分針、秒針的時鐘誤差容忍度更高。

薩法爾表示，相較于“人類終極測試”（Humanity's Last Exam）這類側(cè)重知識儲備的測試，ClockBench 對 AI 模型的難度更高。測試結(jié)果表明，即便面對看似簡單的視覺任務，AI 與人類的差距仍十分顯著。

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準確率位居榜首，Gemini 2.5 Flash 緊隨其后，準確率為 10.5%。GPT-5 排名第三，準確率 8.4%，且調(diào)整模型的推理預算對提升準確率效果甚微。

Grok 4 模型表現(xiàn)墊底，準確率僅 0.7%，這一結(jié)果頗為出人意料，因為該模型在其他基準測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時鐘判定為“無效”，但實際上 180 個時鐘中僅 37 個顯示的是“不可能時間”。這種極度謹慎的方式意味著，從技術(shù)層面來講，Grok 4 的正確答案數(shù)量最多，但這只是通過隨機將時鐘標記為無效實現(xiàn)的。

Anthropic 公司的 Claude 4 Sonnet（準確率 4.2%）與 Claude 4.1 Opus（準確率 5.6%）表現(xiàn)同樣不佳。研究還發(fā)現(xiàn)，61.7% 的時鐘未能被任何一個 AI 模型正確讀取。

相較于準確率，誤差的嚴重程度更能反映問題本質(zhì)。人類讀取時間的中位誤差僅為 3 分鐘，而表現(xiàn)最佳的 AI 模型中位誤差達 1 小時，性能最差的 AI 模型誤差約為 3 小時，對于 12 小時制時鐘而言，這幾乎和隨機猜測差不多。

注意到，部分鐘面特征對 AI 而言難度極高：當鐘面采用羅馬數(shù)字時，AI 準確率降至 3.2%；采用圓形數(shù)字時，準確率僅為 4.5%。此外，秒針、彩色背景及鏡像布局也會對 AI 的判斷造成干擾。

僅含時針的時鐘對 AI 而言相對容易（準確率 23.6%），這得益于其更高的誤差容忍度。采用阿拉伯數(shù)字和基礎(chǔ)表盤的標準時鐘，也能讓 AI 取得相對更好的成績。

測試還獲得了一個意外發(fā)現(xiàn)：當 AI 模型成功讀取時間后，它們在時間計算、指針調(diào)整或時區(qū)轉(zhuǎn)換任務中幾乎都能得出正確結(jié)果。這意味著，AI 面臨的挑戰(zhàn)并非“進行時間相關(guān)的數(shù)學運算”，而是“從視覺信息中讀取時間”這一初始步驟。

薩法爾認為，背后原因可能有三點：其一，讀取指針式時鐘對視覺推理能力是一項嚴峻考驗；其二，罕見或特殊的鐘面設計在訓練數(shù)據(jù)中出現(xiàn)頻率極低；其三，將鐘面視覺信息轉(zhuǎn)化為文字描述，對當前 AI 模型而言很可能是一項難題。

ClockBench 被定位為一項長期基準測試。其完整數(shù)據(jù)集目前處于保密狀態(tài)，以避免污染未來 AI 的訓練過程，但已有一個規(guī)模較小的公開版本可供測試使用。

盡管 AI 在該測試中的得分普遍較低，薩法爾仍看到了希望：性能最佳的模型表現(xiàn)優(yōu)于隨機猜測，且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過，這些能力能否通過“擴大現(xiàn)有方法規(guī)模”得到提升，還是需要全新技術(shù)路徑來突破，目前仍是一個待解的問題。

一年前，中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板，但當時的結(jié)果要好得多。彼時，GPT-4o 模型在包含“讀時鐘、讀儀表”的儀表盤任務中，準確率達到 54.8%。而此次 ClockBench 測試中，AI 的最高準確率僅為 13.3%，這一差距既表明新基準測試難度顯著提升，也反映出 AI 的時鐘讀取能力并未取得明顯進步。

本文鏈接：http://www.www897cc.com/showinfo-45-27648-0.html新研究：人類讀指針式時鐘準確率達 89.1%，頂尖 AI 僅 13.3%

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI GPT-5 擁有博士級能力？谷歌 DeepMind CEO：無稽之談

下一篇：科學家發(fā)現(xiàn) AI 能像人類一樣評估社交情境，科研效率遠超人工

標簽：

熱門焦點

人間誠實周鴻祎：360 All in 大模型的六個解讀

主筆 / 村口有牛文章架構(gòu)師 / 毛自聰出品 / 巨頭財經(jīng)5月至今，人間躁動，各路大模型你方唱罷我登場，VC圈互聯(lián)網(wǎng)圈媒體圈已近癲狂。誰也沒想到，今日，360再度刷屏，老牌互聯(lián)網(wǎng)巨頭展現(xiàn)
元宇宙是推動NFT發(fā)展的初始家園

現(xiàn)在大家都知道了什么是NFT，但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加，該如何將這些數(shù)字資產(chǎn)帶入我們的日常生活？NFT還是主流嗎？如果我們將“主流
NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

Hayley Rincon是一位令人印象深刻才華橫溢的創(chuàng)作者，她的作品呈現(xiàn)出迷幻的氣息。今天就來聊聊她的藝術(shù)作品，和她自己的數(shù)字藝術(shù)之路。Hayley是加利福尼亞灣區(qū)的有
想進入web3.0？來看看哪些工作適合你

隨著對加密貨幣需求的增加，加密領(lǐng)域的工作的數(shù)量也在增加。以下是一些非技術(shù)性加密貨幣工作簡介。加密貨幣在主流市場獲得的可信度提升。導致區(qū)塊鏈領(lǐng)域的求職
這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

前米高梅首席執(zhí)行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室，提供 NFT，讓持有者在制作中發(fā)揮作用Electromagnetic Productions 創(chuàng)始
以太坊面臨來自Fantom的巨大挑戰(zhàn)

眾所周知，區(qū)塊鏈和加密貨幣項目經(jīng)常因其對環(huán)境的影響而受到批評。但是有一個非營利性的加密貨幣和區(qū)塊鏈項目說它比其他的更環(huán)保。今天老雅痞就給大家聊一聊加
利用元宇宙平臺10天收入160萬，風口還是虎口？

美國Meta平臺有限公司，也就是原來的臉書公司，9日宣布，公司旗下的虛擬現(xiàn)實應用《地平線世界》正式向美國和加拿大的18歲以上人群開放。這也是目前Meta推出的最具象
元宇宙收割了誰

作者：曉宇資本將元宇宙看作下一代互聯(lián)網(wǎng)的門票，畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里，先是號稱元宇宙第一股的沙盒游戲Roblox盛裝
多位全國政協(xié)委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

財聯(lián)社|區(qū)塊鏈日報2日訊今日《元宇宙新鮮事》有：全國政協(xié)委員劉偉建議出臺“元宇宙中國”的頂層設計方案；國金證券稱元宇宙仍處初期投資龐大獲利不易階段；阿聯(lián)酋

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

新研究：人類讀指針式時鐘準確率達 89.1%，頂尖 AI 僅 13.3%

人間誠實周鴻祎：360 All in 大模型的六個解讀

元宇宙是推動NFT發(fā)展的初始家園

NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

想進入web3.0？來看看哪些工作適合你

這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

以太坊面臨來自Fantom的巨大挑戰(zhàn)

利用元宇宙平臺10天收入160萬，風口還是虎口？

元宇宙收割了誰

多位全國政協(xié)委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

最新推薦

元宇宙這一年：技術(shù)加速落地，助傳統(tǒng)行業(yè)走向新階段

比特幣的價格越高，使用價值越大

從冰墩墩到無聊猿，解秘未來IP爆款的模因

又一家數(shù)字營銷公司入局元宇宙，國內(nèi)首個藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

趙長鵬預測SoicalFi為今年主要驅(qū)動力，新的機會在哪里？

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態(tài)鏈AR眼鏡廠商

猜你喜歡

熱門推薦

相關(guān)資訊