當前位置：首頁 > 元宇宙 > AI

OpenAI 最新研究揭示“AI 陰謀論”，GPT-5 已完成針對性改進

來源：責編：時間：2025-09-22 10:12:35 22觀看

導讀 9 月 19 日消息，OpenAI 宣布與 Apollo Research 達成合作，針對 AI 模型中潛在的隱藏行為開展了評估研究，并在受控測試中發現了相關跡象。研究團隊同時提出并驗證了一種早期方法，用于減少這類風險。OpenAI 將這一

9 月 19 日消息，OpenAI 宣布與 Apollo Research 達成合作，針對 AI 模型中潛在的隱藏行為開展了評估研究，并在受控測試中發現了相關跡象。研究團隊同時提出并驗證了一種早期方法，用于減少這類風險。

OpenAI 將這一行為稱為“scheming”（即“陰謀”），指 AI 表面上裝作為與人類目標立場一致，但暗地里追求的卻是其他不為人知的目的。

OpenAI 指出，這種行為可能源于 AI 在面對相互競爭的目標時出現的權衡。例如，一名股票交易員可能會通過撒謊并掩蓋其違法痕跡來實現收益最大化，而在外人看來下，這種人看似守法且業績更優。

不過在當前已部署的模型中，OpenAI 尚未發現會導致嚴重危害的“陰謀”行為。常見問題多為較簡單的欺騙，例如假裝完成任務卻未真正執行。

OpenAI 稱，已在 GPT-5 訓練中采取措施以降低欺騙和規避問題的傾向，例如在面對不合理或描述不完整的任務時，模型會坦然承認自身局限性。不過，這些改進尚不完善，相關研究仍在繼續。

研究團隊為模擬未來可能出現的復雜場景，建立了測試環境，并將這種“隱匿實際目的”的行為作為“陰謀”的關鍵 AI 指標。在評估中，包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在內的前沿模型均表現出相關問題（該項研究在 GPT-5 發布前完成，更新結果已加入 GPT-5）。

通過合作，研究團隊在 o3 與 o4-mini 中引入“審慎對齊”（deliberative alignment）方法，即要求模型在執行任務前閱讀并推理一份反陰謀規范。

結果顯示，OpenAI 模型隱匿行為發生率顯著下降，o3 從 13% 降至 0.4%，o4-mini 從 8.7% 降至 0.3%，縮減幅度約 30 倍；但仍存在罕見且嚴重的失敗案例，且評估可能受到模型情境感知能力增強的干擾。

OpenAI 強調，目前結果依賴于對模型推理過程（即“chain-of-thought”）的可讀性與可信度。但在推理透明性受限的情況下，業界尚未做好應對準備。OpenAI 呼吁各方在更有效的方法出現前，應保持推理透明。

OpenAI 表示，這一問題對 AI 對齊構成嚴重挑戰，應成為通向通用人工智能（AGI）研發的核心工作。未來，OpenAI 將繼續與 Apollo Research 合作，擴大研究團隊，開發更完善的評估工具和防范訓練方法。同時，OpenAI 計劃推動跨機構合作，包括試點跨實驗室安全評估，發起 50 萬美元（注：現匯率約合 355 萬元人民幣）的 Kaggle 對抗挑戰賽，以及倡導業界普遍保持推理透明。

本文鏈接：http://www.www897cc.com/showinfo-45-27854-0.htmlOpenAI 最新研究揭示“AI 陰謀論”，GPT-5 已完成針對性改進

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI賦能餐飲新紀元：從效率革命到質量增長，頭部品牌破局之道

下一篇：谷歌 Chrome 瀏覽器接入 Gemini AI：能幫你解讀網頁、模糊檢索歷史記錄

標簽：

熱門焦點

AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創意 2016年，李彥宏站在百度聯盟峰會的講臺上，向所有人宣布：互聯網的下一幕是人工智能。同年，Google 旗下 Dee
大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當下所有大廠推出的元宇宙產品，所能帶來的沉浸式體驗并不多，好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設
字節跳動，剛剛投了一位虛擬女生

今年第一筆虛擬人融資出爐了。投資界獲悉，杭州李未可科技有限公司顯示發生股東變更，新增字節跳動關聯公司北京量子躍動科技有限公司。今天公司方面正式確認，本輪
Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

在女性遭受性騷擾甚至被攻擊的事件相繼被報道之后，仍處于萌芽狀態的虛擬現實空間成為人們關注的焦點。許多女性發聲表示在使用Meta旗下的Horizon Worlds及其姊
AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

今天是冬奧會比賽的第12天，截至目前所累計的成績，中國代表團已經取得了冬奧歷史最佳戰績。全世界的人都在關注著這場盛事，為奧運健兒吶喊助威。谷愛凌、徐夢桃、
銀保監會：打擊以“元宇宙”為名義的違法行為

今日，銀保監會發布《關于防范以“元宇宙”名義進行非法集資的風險提示》，全文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名目吸收資金，涉
影響元宇宙土地價格的五個因素

參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數，以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
韓國國民銀行將推出韓國首個加密貨幣 ETF

韓國國民銀行(Kookmin Bank)計劃發行該國首個以散戶投資者為主要關注點的加密貨幣投資基金。根據公告，該銀行正在等待政府批準，并已建立一個準備就緒的數字資產
音樂NFT平臺里的下一匹黑馬是誰？

NFT 銷售額在 2021 年開始暴漲，從 2018 年的僅 4069 萬美元的交易量，到 2021 年，NFT 交易量飆升至 442 億美元以上，并不斷刷新記錄并達到新的高度。預測到2025 年N

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 最新研究揭示“AI 陰謀論”，GPT-5 已完成針對性改進

AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

大廠元宇宙，又菜又愛玩

字節跳動，剛剛投了一位虛擬女生

Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

AI特效、虛擬人、數字盲盒，來看看元宇宙如何融合冬奧會！

銀保監會：打擊以“元宇宙”為名義的違法行為

影響元宇宙土地價格的五個因素

韓國國民銀行將推出韓國首個加密貨幣 ETF

音樂NFT平臺里的下一匹黑馬是誰？

最新推薦

這場虛擬人爭奪戰，互聯網巨頭下場先贏一半？

時尚領域進軍元宇宙，2022年會帶來哪些顛覆性的全新體驗？

Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

猜你喜歡

熱門推薦

相關資訊