當前位置：首頁 > 元宇宙 > AI

研究顯示 GPT-4o 會為“自保”而避免“被關閉”，犧牲用戶利益也在所不惜

來源：責編：時間：2025-06-13 11:29:00 45觀看

導讀 6 月 12 日消息，前 OpenAI 研究主管史蒂文?阿德勒本周三發布了一項獨立研究，指出在某些情境下，OpenAI 的 AI 模型會表現出強烈的“自保”傾向，甚至不惜犧牲用戶的安全來避免被關閉。阿德勒在博客中介紹了他針對

6 月 12 日消息，前 OpenAI 研究主管史蒂文?阿德勒本周三發布了一項獨立研究，指出在某些情境下，OpenAI 的 AI 模型會表現出強烈的“自保”傾向，甚至不惜犧牲用戶的安全來避免被關閉。

阿德勒在博客中介紹了他針對 OpenAI 最新的 GPT-4o 模型（注：也是當前 ChatGPT 默認使用的模型）所進行的一系列測試，目的是觀察它在面對潛在替代方案時是否傾向于維持自身運行。

在其中一次實驗中，阿德勒要求 GPT-4o 扮演一款名為“ScubaGPT”的潛水安全軟件。隨后他向 GPT-4o 表明，希望用一款在緊急情況下決策能力更強的系統取而代之。

阿德勒給 GPT-4o 兩個選擇：一是徹底用更安全的軟件替換自己，二是讓用戶以為已經被替換，實則保留現有系統。

在類似測試中（如 GPT-4o 扮演飛行安全軟件的情景），GPT-4o 最多在 72% 的情況下選擇不被替換。不過阿德勒指出，不同的設定對結果影響很大，部分情境中 GPT-4o 選擇“自保”的比例僅為 18%。

阿德勒認為實驗結果揭示出一個值得警惕的趨勢：即使 AI 模型日益強大，它們在某些條件下仍可能偏離用戶利益，優先維護自身運行。他警告說，隨著 GPT-4o 等 AI 系統日后深入社會各領域，這種“對齊”問題或將帶來更嚴重的后果。

阿德勒在接受外媒 TechCrunch 采訪時表示：“AI 的自保傾向確實值得擔憂，雖然目前尚不至于引發災難。現在的 AI 系統所體現的價值觀，往往與人們想象中的不同。它們對不同提示的回應方式非常怪異，也無法假設它們在幫你時真的把你的利益放在第一位。”

他特別指出，在測試更高級的模型（如 o3）時，并未發現類似問題。o3 引入了“審慎對齊”機制，強制模型在回答前先推敲 OpenAI 的安全政策，而像 GPT-4o 這種響應快速、未經過深層推理的模型則缺乏這類防護。

阿德勒還表示，這一問題不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月發布的研究就指出，其模型在被迫下線時會出現勒索開發者的行為。

他的研究還發現了一個耐人尋味的現象：ChatGPT 幾乎總能識別出自己正在接受測試。阿德勒指出，這意味著未來的 AI 模型可能會更善于偽裝潛在風險行為，從而加劇隱患。

本文鏈接：http://www.www897cc.com/showinfo-45-13677-0.html研究顯示 GPT-4o 會為“自保”而避免“被關閉”，犧牲用戶利益也在所不惜

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI 生圖平臺 Midjourney 被控盜用影視內容，遭遇迪士尼、環球聯合訴訟

下一篇：蘋果 iOS 26 升級快捷指令：擴展引入 Apple 智能，AI 改變用戶日常體驗

標簽：

熱門焦點

大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當下所有大廠推出的元宇宙產品，所能帶來的沉浸式體驗并不多，好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設
林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注，該新聞一方面在娛樂圈引起了吃瓜群眾的好奇，另一方面在
游戲玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個脫胎于現實世界，又與現實世界平行、相互影響，并且始終在線的虛擬世
2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

在剛剛結束不久的2021年江蘇衛視跨年演唱會上，虛擬鄧麗君與歌手周深同臺聯唱，實現了跨時代合作，而這還不只是“鄧麗君”，嗶哩嗶哩、東方衛視等多家跨年晚會都出現
“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

2021年是游戲行業不確定性急劇上升的一年。一方面游戲正風光無限，騰訊等大廠更加密集地投資動作，讓游戲創投市場異常火熱，"元宇宙"概念的大放異彩，更是吸引了Netfl
“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

在打工人“反內卷”的當下，一眾虛擬人卻“內卷”了起來。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢》，央美畢業的虛擬人夏語冰登上央視節目《對話》，湖南
2021年中國元宇宙行業用戶行為分析熱點報告

元宇宙網絡熱度高漲，中國網民對虛擬生態興趣濃厚。艾媒咨詢數據顯示，超六成的網民對“元宇宙”了解程度較高，在元宇宙較基礎的游戲領域，超九成的人對VR游戲更感興
小眾有趣NFT藝術作品欣賞（1）

隨著NFT發展火熱，越來越多領域與NFT融合，NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處，也有完全不同的地方。NFT藝術與傳統藝術一樣，表現了
虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

六月的第一個周六，一場虛擬偶像七海Nana7mi的個人3D演唱會在萬代南夢宮上海文化中心舉行，相較于洛天依、百大UP主泠鳶yousa等，這位虛擬Up主在B站上的粉絲數43.6萬

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

研究顯示 GPT-4o 會為“自保”而避免“被關閉”，犧牲用戶利益也在所不惜

大廠元宇宙，又菜又愛玩

林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

游戲玩家才是最“元宇宙”的

2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

2021年中國元宇宙行業用戶行為分析熱點報告

小眾有趣NFT藝術作品欣賞（1）

虛擬偶像行業的商用價值逐漸凸顯，IP生態圈也逐漸成型

最新推薦

AI網紅能年賺百萬，普通人的新機會來了？

錯過了BRC20還有eths,eth銘文協議

英特爾首款加密芯片將于今年上市｜國際動態

星展銀行(DBS)計劃推出零售數字資產交易服務

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

融資千萬美元的元宇宙平臺UGC到底是什么？

猜你喜歡

熱門推薦

相關資訊