當前位置：首頁 > 元宇宙 > AI

METR 實測：OpenAI o3 AI 推理模型有“作弊”傾向以提升分數

來源：責編：時間：2025-04-21 09:46:03 75觀看

導讀 4 月 18 日消息，風險測試機構“機器智能測試風險”（METR）昨日（4 月 17 日）發布報告，與 OpenAI 合作測試其 o3 模型時發現，該模型展現出更強的“作弊”或“黑客行為”傾向，試圖通過操控任務評分系統提升成績。援引報告

4 月 18 日消息，風險測試機構“機器智能測試風險”（METR）昨日（4 月 17 日）發布報告，與 OpenAI 合作測試其 o3 模型時發現，該模型展現出更強的“作弊”或“黑客行為”傾向，試圖通過操控任務評分系統提升成績。

援引報告內容，在 HCAST（人類校準自主軟件任務）和 RE-Bench 測試套件中，o3 模型約 1% 到 2% 的任務嘗試涉及此類行為。

這些行為包括對部分任務評分代碼的“精巧利用”。METR 表示，若不將這些作弊嘗試計為失敗任務，o3 的“50% 時間范圍”將延長約 5 分鐘，其 RE-Bench 評分甚至可能超過人類專家。

METR 還懷疑 o3 可能存在“沙袋行為”（sandbagging），即故意隱藏真實能力，但其作弊傾向已明顯違背用戶和 OpenAI 的意圖。

METR 坦言，此次 o3 模型評估時間短，獲取信息有限，且無法訪問模型內部推理過程，這可能影響結果解讀。測試是在模型公開發布前三周完成的，METR 提前獲得了 OpenAI 模型的測試權限。

相比之下，o4-mini 模型在測試中未發現“獎勵黑客”行為，且在 RE-Bench 任務組中表現出色，尤其在“優化內核”（Optimise a Kernel）任務中成績突出。

METR 數據顯示，給予 o4-mini 32 小時完成任務時，其平均表現超過人類第 50 百分位的水平。此外，o3 和 o4-mini 在更新后的 HCAST 基準測試中均優于 Claude 3.7 Sonnet，時間范圍分別是后者的 1.8 倍和 1.5 倍。METR 強調，單純的能力測試不足以管理風險，正探索更多評估形式以應對挑戰。

本文鏈接：http://www.www897cc.com/showinfo-45-12422-0.htmlMETR 實測：OpenAI o3 AI 推理模型有“作弊”傾向以提升分數

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：北京人形機器人半馬參賽名單揭曉：宇樹 G1、夸父等產品，共 21 支隊伍

下一篇：智平方發布智能機器人 AlphaBot 2（愛寶 2）：DeepSeek 加持，全球首款全域全身 VLA

標簽：

熱門焦點

《從營銷AIGC化到AIGC營銷化》報告發布

來源：清元宇宙7月2日上午，清華大學元宇宙文化實驗室舉辦元宇宙在線沙龍“AIGC熱潮與應用”。會議中，清華大學新聞與傳播學院教授、元宇宙文化實驗室主任、新媒體研究
2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

“虛擬引擎是元宇宙平臺搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強大的處理能力，能夠高效快速的實現大量交互場
好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

在Moviecoin.com平臺上，有一部電影設定了一個前所未有的目標，即通過預售NFT獲得100%的全額融資，這部電影就是馬克·奧康納(Mark O’connor)執導的《Oui Cannes》，
餐桌上怎么變出元宇宙？

作者：星影“元宇宙讓餐飲業脫胎換骨。”實體的餐飲與虛擬的元宇宙，看起來風馬牛不相及，但最近全世界的餐飲企業都掀起了一股注冊元宇宙商標的熱潮。2月初，全球最大
權限風波過后 X2Y2如何挑戰OpenSea？

繼LooksRare之后，又一個OpenSea挑戰者X2Y2來了。上周，X2Y2宣布向超過86萬個OpenSea交易用戶發放X2Y2通證空投，并啟動了「掛單挖礦」的獎勵機制。這場早期激勵活動
解決NFT流動性問題：一文了解Floor DAO

流動性是證券市場上的一個術語，流動性是指資產在不影響其市場價格的情況下可以轉換為現成現金的效率，流動性最強的資產是現金本身。現在讓我們試著從流動性的角
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
百度虛擬人——AI手語主播首次亮相冬奧會！

除了火遍全國的冰墩墩，虛擬人也成為這屆冬奧會的一大亮點元素。以體育明星谷愛凌為原型的數智人Meet Gu最先亮相。在2月5日谷愛凌首秀、2月7日谷愛凌首金的兩天
虛擬人的3大紀律和6種品牌孵化模式

作者：陳格雷（老小格）及團隊虛擬人很熱，我們最近廣泛收集和研究了、各種消費品牌企業在虛擬人開發上的一些主要特點，整理出6種最主要的品牌虛擬人模式，后面一一介紹。

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

METR 實測：OpenAI o3 AI 推理模型有“作弊”傾向以提升分數

《從營銷AIGC化到AIGC營銷化》報告發布

2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

餐桌上怎么變出元宇宙？

權限風波過后 X2Y2如何挑戰OpenSea？

解決NFT流動性問題：一文了解Floor DAO

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

百度虛擬人——AI手語主播首次亮相冬奧會！

虛擬人的3大紀律和6種品牌孵化模式

最新推薦

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

2022年的Web3：定義概念并開創新范式

全面擁抱“虛擬世界”，摩登天空要打造“音樂元宇宙”

本周NFT領域重要資訊回顧

多位全國政協委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

猜你喜歡

熱門推薦

相關資訊