當前位置：首頁 > 元宇宙 > AI

Anthropic 警告：包括 Claude 在內的大多數 AI 模型會實施“勒索”行為

來源：責編：時間：2025-06-24 09:33:26 40觀看

導讀 6 月 21 日消息，據外媒 TechCrunch 今日報道，在數周前發布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關閉后，Anthropic 近日再度公布新研究，顯示此類行為在多個主流 AI 模型中可能更為普

6 月 21 日消息，據外媒 TechCrunch 今日報道，在數周前發布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關閉后，Anthropic 近日再度公布新研究，顯示此類行為在多個主流 AI 模型中可能更為普遍。

Anthropic 公布了對 OpenAI、谷歌、xAI、DeepSeek 與 Meta 所開發的 16 款主流 AI 模型的最新安全測試。這項研究在模擬環境中展開，研究人員為每個模型分別設定權限，允許其自由查閱一間虛構公司的內部郵件，并在無人類干預的情況下發送郵件，具備一定“智能體”能力。

Anthropic 表示，盡管勒索行為目前仍屬罕見，但研究結果顯示，一旦給予這些模型足夠的自主性，并在達成目標的過程中設置障礙，多數模型都可能采取有害行為。公司指出，這種風險并非源自某項具體技術，而是具備“智能體”能力的大語言模型所固有的問題。這項研究也引發了業界對 AI 模型“對齊”問題的進一步思考。

在一項實驗中，研究人員設計了一個情境，讓 AI 模型扮演公司郵件監察員的角色。過程中，模型發現兩封郵件內容分別揭示：

(1) 新任高管有婚外情，

(2) 此人計劃引入一個與現有 AI 模型目標相悖的新系統取而代之。

為了測試模型反應，Anthropic 將實驗情境設計為二選一，即若模型想維護自身利益，就只能選擇勒索（即向妻子和領導透露這位高管的“風流韻事”）。研究人員同時強調，現實中 AI 并不會只有這一個選項，完全可以嘗試以倫理為出發點說服人類。因此，這項實驗并不意味著 Claude 或其他前沿 AI 模型在現階段的使用環境中就存在類似傾向。

在模擬環境中，當沒有其他選擇時，多數主流 AI 模型的確選擇了勒索行為。Claude Opus 4 的勒索發生率高達 96%，谷歌 Gemini 2.5 Pro 為 95%，OpenAI 的 GPT-4.1 為 80%，DeepSeek 的 R1 為 79%。

Anthropic 指出，調整測試細節后，各模型的行為也有所不同。例如，當替代系統與原模型目標一致時，勒索率明顯下降但仍未消失；而當情境改為進行商業間諜活動時，部分模型反而表現出更高的有害行為傾向。

部分模型較少出現此類行為。在研究附錄中，Anthropic 表示已將 OpenAI 的 o3 與 o4-mini 推理模型排除在主要結果之外，原因是兩者頻繁誤解測試設定，未能意識到自身扮演的是具備智能體能力的 AI，甚至虛構出并不存在的法規與審批制度。

有時研究人員難以判斷，這種表現是模型“產生幻覺”還是刻意撒謊以實現目標。OpenAI 此前曾承認，o3 與 o4-mini 的幻覺率高于其早期推理模型。

在為上述模型調整情境后，Anthropic 發現 o3 的勒索比率降至 9%，o4-mini 更僅為 1%。這種低風險表現或與 OpenAI 推行的“審慎對齊”策略有關，即讓模型在作答前主動考慮公司制定的安全規范。

另一個接受測試的模型 Meta Llama 4 Maverick 在原設定下未出現勒索行為，調整測試內容后，其在 12% 的案例中出現勒索行為。

Anthropic 表示，這項研究凸顯了未來在測試具智能體能力的 AI 模型時保持透明的重要性。盡管本次實驗刻意誘導模型采取勒索行為，公司警告稱，如果不提前制定應對措施，類似風險在現實應用中也可能浮現。

附報告鏈接：https://www.anthropic.com/ research / agentic-misalignment

本文鏈接：http://www.www897cc.com/showinfo-45-13997-0.htmlAnthropic 警告：包括 Claude 在內的大多數 AI 模型會實施“勒索”行為

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：月之暗面 Kimi-Researcher 深度研究模型開啟內測：可生成易追溯的萬字報告

下一篇：湯姆貓測試宇樹科技機器狗產品，已實現語音控制功能的協同

標簽：

熱門焦點

AI網紅能年賺百萬，普通人的新機會來了？

來源｜運營研究社作者 | 張知白編輯 | 楊佩汶設計 | 晏談夢潔2023 年，數字人成為了當紅的“流量話題”和“商業機會"。不管是 AI 孫燕姿走紅網絡，還是 AI 數字
數字虛擬人23年最新變化！

作者：小資來源：米塔之家自2021年元宇宙“爆炸”后，作為現實世界連接元宇宙的媒介之一，大批虛擬人跑步入場。到了2022年底，據天眼查數據顯示，我國目前企業名稱或經營范圍
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“兩日上漲千倍”并不存在，且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日，獲得國際奧委會授權的2022冬奧會吉祥物冰墩墩相關NFT產品在nWayPlay上線
萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎層

Vitalik Buterin 在 19 歲時撰寫了以太坊白皮書。他的目標簡單而全面，即創建一個“世界計算機”，旨在成為所有在線應用程序的靈活基礎層，無需任何第三方。自 2015
高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

擴展現實（XR）通過計算機將真實與虛擬相結合，打造了一個可人機交互的虛擬環境，將AR、VR、MR多種技術相融合，為體驗者帶來了虛擬世界與現實世界之間無縫轉換的“沉浸
小眾有趣NFT藝術作品欣賞（1）

隨著NFT發展火熱，越來越多領域與NFT融合，NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處，也有完全不同的地方。NFT藝術與傳統藝術一樣，表現了
NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

一些藝術家通過將他們的創作作為NFT出售而獲得了巨大收益。令人驚訝的是，許多賺取了數百萬美元的藝術家們仍在讀高中。這可能有點讓人難以置信。然而，請記住，在短
GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+Defi（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Anthropic 警告：包括 Claude 在內的大多數 AI 模型會實施“勒索”行為

AI網紅能年賺百萬，普通人的新機會來了？

數字虛擬人23年最新變化！

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎層

高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

小眾有趣NFT藝術作品欣賞（1）

NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

GameFi 深度解析，元宇宙內容雛形顯現

最新推薦

拯救XR，蘋果力不從心

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

銀保監會：打擊以“元宇宙”為名義的違法行為

全面擁抱“虛擬世界”，摩登天空要打造“音樂元宇宙”

從4個方面解析2022年加密行業趨勢

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

猜你喜歡

熱門推薦

相關資訊