9 月 19 日消息,OpenAI 宣布與 Apollo Research 達成合作,針對 AI 模型中潛在的隱藏行為開展了評估研究,并在受控測試中發現了相關跡象。研究團隊同時提出并驗證了一種早期方法,用于減少這類風險。
OpenAI 將這一行為稱為“scheming”(即“陰謀”),指 AI 表面上裝作為與人類目標立場一致,但暗地里追求的卻是其他不為人知的目的。

OpenAI 指出,這種行為可能源于 AI 在面對相互競爭的目標時出現的權衡。例如,一名股票交易員可能會通過撒謊并掩蓋其違法痕跡來實現收益最大化,而在外人看來下,這種人看似守法且業績更優。
不過在當前已部署的模型中,OpenAI 尚未發現會導致嚴重危害的“陰謀”行為。常見問題多為較簡單的欺騙,例如假裝完成任務卻未真正執行。
OpenAI 稱,已在 GPT-5 訓練中采取措施以降低欺騙和規避問題的傾向,例如在面對不合理或描述不完整的任務時,模型會坦然承認自身局限性。不過,這些改進尚不完善,相關研究仍在繼續。
研究團隊為模擬未來可能出現的復雜場景,建立了測試環境,并將這種“隱匿實際目的”的行為作為“陰謀”的關鍵 AI 指標。在評估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在內的前沿模型均表現出相關問題(該項研究在 GPT-5 發布前完成,更新結果已加入 GPT-5)。
通過合作,研究團隊在 o3 與 o4-mini 中引入“審慎對齊”(deliberative alignment)方法,即要求模型在執行任務前閱讀并推理一份反陰謀規范。
結果顯示,OpenAI 模型隱匿行為發生率顯著下降,o3 從 13% 降至 0.4%,o4-mini 從 8.7% 降至 0.3%,縮減幅度約 30 倍;但仍存在罕見且嚴重的失敗案例,且評估可能受到模型情境感知能力增強的干擾。
OpenAI 強調,目前結果依賴于對模型推理過程(即“chain-of-thought”)的可讀性與可信度。但在推理透明性受限的情況下,業界尚未做好應對準備。OpenAI 呼吁各方在更有效的方法出現前,應保持推理透明。
OpenAI 表示,這一問題對 AI 對齊構成嚴重挑戰,應成為通向通用人工智能(AGI)研發的核心工作。未來,OpenAI 將繼續與 Apollo Research 合作,擴大研究團隊,開發更完善的評估工具和防范訓練方法。同時,OpenAI 計劃推動跨機構合作,包括試點跨實驗室安全評估,發起 50 萬美元(注:現匯率約合 355 萬元人民幣)的 Kaggle 對抗挑戰賽,以及倡導業界普遍保持推理透明。
本文鏈接:http://www.www897cc.com/showinfo-45-27854-0.htmlOpenAI 最新研究揭示“AI 陰謀論”,GPT-5 已完成針對性改進
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com