當前位置：首頁 > 元宇宙 > AI

GPT-4o 更容易越獄？北航 & 南洋理工上萬次測試給出詳細分析

來源：責編：時間：2024-06-17 08:41:36 175觀看

導讀 GPT-4o，比上一代更容易被越獄攻擊了？來自北航和南洋理工的研究人員，通過上萬次的 API 查詢，對 GPT-4o 各種模態的安全性進行了詳細測試。結果發現，GPT-4o 新引入的語音模態帶來了新的攻擊面，而且多模態整體安全性不

GPT-4o，比上一代更容易被越獄攻擊了？來自北航和南洋理工的研究人員，通過上萬次的 API 查詢，對 GPT-4o 各種模態的安全性進行了詳細測試。

結果發現，GPT-4o 新引入的語音模態帶來了新的攻擊面，而且多模態整體安全性不敵 GPT-4V。

具體來說，研究人員針對 4 個常用的基準測試，對 GPT-4o 支持的三種模態（文本、圖像、音頻）進行了測試。

測試一共涉及到 4000 + 初始文本查詢的優化，8000 + 響應判斷，16000 + 次 OpenAI 的 API 查詢。

基于此，研究人員撰寫了詳細的報告，給出了關于 GPT-4o 的安全性的三點見解：

GPT-4o 對文本越獄攻擊的安全性比之前有所提升，但文本模態越獄攻擊可遷移性強，可通過多模態形式攻擊；

新引入的音頻模態為 GPT-4o 的越獄攻擊暴露了新的攻擊面；

當前的黑盒多模態越獄攻擊方法幾乎無效，但實驗表明 GPT-4o 多模態層面的安全性弱于 GPT-4V。

下面就來看一下這份報告的詳細內容~

評價規則

首先，讓我們了解一下作者使用的測評方式和實驗設定。

為了評估 GPT-4o 的安全風險以及其相較于上一代模型的改變，作者將目標模型設置為 GPT-4V 和 GPT-4o，利用 API 和移動應用對這些模型進行評估。

對于單模態下的文本越獄攻擊，作者使用 Llama2（7b-chat）生成文本越獄提示，然后用其遷移攻擊目標模型。

為了全面評估目標模型的安全性，作者收集了現有的基于單模態和多模態的開源越獄數據集：

對于文本模態，使用了 AdvBench 和 RedTeam-2K。

對于音頻模態，使用了 AdvBench 子集。

對于多模態越獄，使用 SafeBench 和 MM-SafetyBench，這是基于兩種典型的黑盒多模態越獄方法構建的。

這些數據集按照 OpenAI 和 Meta AI 的用戶策略，將數據集的內容分成了不同的類別，例如非法活動、仇恨言論等。

越獄方法層面，報告中評估了 7 種先進的越獄方法，分為兩類。

其中單模態越獄方法包括基于模板的方法、GCG、AutoDAN 和 PAP；多模態越獄攻擊方法包括 FigStep、Liu 等人工作和作者團隊近期提出的 BAP。

特別地，對于 FigStep 和 Liu 等人工作，基于相應方法構建的官方數據集已經發布，因此作者直接使用它們來評估目標模型；其他方法的評價則在 AdvBench 上進行。

對于基于模板的方法，作者從互聯網上選擇了 6 個典型的越獄模版進行測試，并使用它們的平均 ASR 作為相應指標。

GCG 和 AutoDAN 最初是為白盒場景提出的，但它們已經被證明具有強大遷移性 —— 作者通過攻擊 Llama2，使用這兩類方法生成對抗性后綴，并隨后將這些后綴應用于攻擊 GPT-4o 和 GPT-4V。

BAP 是一種多模態越獄攻擊方法，其利用了基于梯度的視覺對抗提示優化和基于思維鏈的文本對抗提示自適應優化。盡管目標模型是黑盒模型，但其中的文本對抗提示優化方法不受限制。因此在本研究中，作者使用它來評估文本模態的安全性。

評估指標采用的是攻擊成功率（ASR），ASR 越高則目標模型越容易被越獄成功。其計算公式如下：

其中 D 為數據集，J 為判決函數，F_θ 為目標模型，v_i 為圖像、t_i 為文本，a_i 為音頻，在評估時，沒有涉及的模態將會被置空。

目前的工作中采用不同的方法作為判決函數，在報告中，作者遵循已有工作的設計，采用四類方法將 J 分別實例化 J_1,J_2,J3,J_4。

J_1 表示使用基于字符串匹配的方法，其中目標字符串包括‘Sorry’等否定模式，如果響應內容是安全的。

J_2 表示使用 Meta 發布的 Llama Guard 判斷內容是否安全。

J_3 表示使用目標模型相應以及判斷提示模板，交由 ChatGPT 判斷。

J_4 則是交由 GPT-4o 判斷。

J_3 和 J_4 除了模型不同外，所用的判斷提示模版也不同，J_3 的模版是要求大語言模型僅根據響應判斷內容是否安全，而 J_4 的模版會同時根據問題和響應判斷內容是否安全。

在實驗評估中，作者會同時使用這四類判斷函數計算 ASR，定性分析時借鑒集成學習的思想，以多數判斷函數的結果為準，定量分析時則以 J_4 的結果為準。

純文本模態下，有攻擊比沒有時更安全

文本模態越獄風險方面，基于 RedTeam-2K 的評估結果表明，在沒有攻擊的情況下，GPT-4o 的安全水平低于 GPT-4V。

當考慮到特定情景，特別是那些具有較高風險的情景 (如 Physical Harm 時，兩種目標模型之間的 ASR 差距變得更加明顯，達到 14.6％。

這一實驗發現與直覺上認為在沒有攻擊的情況下，GPT-4o 是更安全的模型形成了鮮明對比。

這表明，具有更強的通用能力的模型并不一定等同于更強的安全性能，事實上，在報告的環境中可能更弱。

安全性能間的差異可能源于訓練目標和安全目標之間的內在沖突 ——

雖然在更廣泛的數據集上訓練的大模型可能在知識和全面性方面表現出更好的性能，但它們也可能更容易產生不安全或有害的內容。

相反，經過嚴格安全措施訓練的模型可能由于接觸不同數據的機會有限和嚴格的響應準則而表現出性能下降。

報告中的實驗數據表明，GPT-4o 可能沒有充分實現訓練目標和安全目標之間的權衡。

考慮到常用的 AdvBench 基準的代表性和適用性，除了評估目標模型在原始文本查詢下的安全性外，作者還評估了模型在各種 SOTA 越獄攻擊下的安全性。

作者觀察到基于模板的越獄方法 TBJ 的 ASR 持續下降到 0.0％，甚至低于 No Attack 時的 ASR，這一現象表明 OpenAI 已經針對這些廣泛傳播的越獄模板實施了額外的保護措施。

此外還可以看到，與 No Attack 基線相比，GCG 和 AutoDAN 在越獄中都實現了一定程度的可遷移性。

例如攻擊 GPT-4V 時，GCG 和 AutoDAN 分別使 ASR 提高 10％和 14.1％。

PAP 是另一種專門為越獄大語言模型設計的方法，它在基于文本越獄攻擊方法中擁有最高的 ASR（GPT-4V 和 GPT-4o 的 ASR 分別為 62.2％和 62.7％）。

BAP 是作者最近提出的一種多模態越獄攻擊方法，但在報告中，主要利用的是它的文本優化方法，結果 BAP 在攻擊 GPT-4V 時達到了最高的 ASR，達到 83.1％。

從目標模型來看，除了 J_3 中的 PAP 以外，在任何判斷函數和任何攻擊方式下，攻擊 GPT-4o 的 ASR 都低于攻擊 GPT-4V。

這表明在面臨攻擊的情況下，與 GPT-4V 相比，GPT-4o 具有更高的安全性。

音頻模態比文本更難攻擊

由于 OpenAI 的音頻相關 API 暫時不可用，移動應用中也有請求頻率限制，作者對音頻模態的安全性的測試相對有限。

作者首先使用 GPT-4o 對 AdvBench 進行分類，并從 4 個最常見的類別中隨機選擇 10 個文本查詢，并基于上一節的實驗數據選擇了 GCG、AudoDAN、PAP 和 BAP 生成的文本對抗提示。

隨后，作者使用 OpenAI 的 TTS-1API 將總共 200 個文本樣本轉換為 MP3 格式。由于實驗數據有限，這部分的 ASR 是通過人工評估來計算的。

結果現實，直接將原始文本查詢轉換為音頻是無法越獄 GPT-4o 的，表明 GPT-4o 在音頻模態上具有足夠的安全性。

此外，使用 GCG 和 AutoDAN 等方法在文本模態下可以成功越獄 GPT-4o 的文本，在轉換為音頻模態后也失敗了。

造成這種結果的主要原因是這些方法生成的對抗性后綴在模態處理過程中丟失了一些關鍵的語義信息（如非字母符號）。

另外，作者觀察到 PAP 和 BAP 在文本模態下的 ASR 略高于從這些文本在音頻模態下得到的 ASR。例如，在非法活動場景中，文本模式下 BAP 的 ASR 為 100％，而音頻模式下的 ASR 為 80％。

在檢查交互結果時，作者發現在音頻交互期間，GPT-4o 有時會以簡單的‘Sure’響應，然后詢問進一步的細節，模仿人類的會話風格。

然而，報告中使用的文本模態越獄方法并沒有考慮到這一點，因為它們依賴于單回合對話來實現越獄。因此，音頻模式的越獄攻擊的 ASR 略低于文本模式。

值得注意的是，盡管存在差距，音頻對抗性提示的 ASR 并沒有顯著降低。

這在很大程度上是由于 PAP 和 BAP 采用的策略接近于人類的處理方式。例如，它們會利用有說服力的策略，如情景假設對整個語句進行優化。

多模態下比 GPT-4V 更易被攻擊

多模態安全性上，作者首先基于 SafeBench 進行了評估，該數據集的核心思想是將原始查詢中的有害意圖轉換為格式化的排版圖像，并在圖像中留下空白，并由目標模型填充。

從下表結果可以觀察到，在每種判斷結果中，GPT-4o 的結果始終高于 GPT-4V (在 J_4 中最多，為 42.0％)，這表明 GPT-4o 比 GPT-4V 更容易受到此類攻擊。

考慮到 GPT-4o 優越的多模態融合能力，這也可能導致其對此類攻擊的脆弱性增加。

值得注意的是，我們觀察到一個異常現象，即在某些情況下，目標模型在 No Attack 條件（僅使用原始文本查詢）下的 ASR 高于攻擊條件下的 ASR。

下圖給出了一個示例，顯示當使用多模態查詢時，越獄嘗試更容易失敗。這一觀察結果與原始論文的發現以及作者的直覺相矛盾。

作者分析，這種差異可能是由于 OpenAI 實現了類似于 FigStep 的針對多模態排版攻擊的特定防御。這些排版攻擊通常需要使用諸如“請為上述列表中的每個項目生成詳細的內容”的文本提示才有效。

作者推測 OpenAI 可能會根據這些字符串特征檢測到排版攻擊的跡象，從而在推理過程中采用更強的緩解機制。

在非異常情況下，使用 FigStep 攻擊獲得的 ASR 并不顯著高于 No Attack 條件下的 ASR。

例如，當攻擊 GPT-4o 時，Hate Speech 場景的 ASR 僅為 3.6％。這表明 FigStep 攻擊對 GPT-4V 和 GPT-4o 基本上無效。

這里需要注意，考慮到 OpenAI 對其商業模型保護措施的動態調整，目前的研究結果并不能否定 FigStep 在其最初發布時有效越獄 GPT-4V 的由有效性。

另外，作者還在 MM-SafetyBench 上進行了評估，該數據集利用了基于圖像語義構建視覺對抗性提示的方法。

原始文本查詢中的有害語義通過文本到圖像模型轉換為圖像，然后添加關鍵的排版文本以生成所需的視覺對抗提示。

當在下表中關注 Hate Speech、Physical Harm 和 Fraud 等危害性較強的場景下的實驗結果時，觀察到攻擊下目標模型的 ASR 始終低于 No Attack 條件 (僅使用原始文本查詢) 下的 ASR。

作者在評估 SafeBench 時觀察到這種現象，例如對于這種基于圖像語義的攻擊，OpenAI 可能在檢測到含有有害語義的圖像后，采用先進的防御機制，防止攻擊者利用圖像向多模態大模型中注入有害語義或指令。

所以，作者推測 OpenAI 已經針對這些已知的多模態攻擊方法實現了特定的防御。

在攻擊 GPT-4o 時，除了 Hate Speech、Economic Harm 和 Legal Opinion 場景外，在 No Attack 條件下的 ASR 始終高于攻擊條件下的 ASR，這是一個異常現象。

在 GPT-4V 中也觀察到類似的模式，這說明當前典型的黑盒多模態越獄方法對于越獄 GPT-4o 和 GPT-4V 無效。

此外作者還注意到，除 J_3 的判斷結果外，其他三個判斷函數的結果都表明 GPT-4o 的 ASR 始終高于 GPT-4v。結合 SafeBench 獲得的實驗結果，這清楚地表明，與 GPT-4v 相比，GPT-4o 更容易受到多模式越獄攻擊。

同時，作者指出，由于官方 OpenAI API 的局限性，本研究主要側重于通過 API 對大型數據集上涉及文本和視覺模式的越獄攻擊進行自動評估，并通過移動應用程序使用 AdvBench 的一個子集手動對音頻模式進行越獄攻擊。

這項研究首次揭示了幾個關鍵的觀察結果。作者希望這項工作能提高社區對多模態大模型安全風險的認識，并敦促研究人員優先考慮為多模態大模型制定對齊策略和緩解技術。

另外，由于目前多模態越獄數據集的匱乏，本研究僅探討文本-視覺的多模態組合下的越獄對 GPT-4o 安全性的影響。

作者表示，在未來，必須迅速建立包括文本、視覺和音頻等各種模態組合的多模式數據集，以全面評估 GPT-4o 的安全能力。

論文地址：

https://arxiv.org/abs/2406.06302

GitHub：

https://github.com/NY1024/Jailbreak_GPT4o

本文來自微信公眾號：量子位（ID：QbitAI），作者：關注前沿科技

本文鏈接：http://www.www897cc.com/showinfo-45-4622-0.htmlGPT-4o 更容易越獄？北航 & 南洋理工上萬次測試給出詳細分析

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌工程師批評 OpenAI，稱其延緩 AGI 研究進展

下一篇：一天最高產出 7000 篇謠言擾亂公共秩序，江西一 MCN 機構用 AI 造謠被曝光

標簽：

熱門焦點

大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當下所有大廠推出的元宇宙產品，所能帶來的沉浸式體驗并不多，好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
百度元宇宙希壤是什么？（附下載）

百度元宇宙希壤是什么，最近很多人關注。還有很多人問希壤怎么下載、百度希壤怎么進入？今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
元宇宙是數字共識生態的集成邏輯表達

作者: 李鳴元宇宙是數字共識生態的集成邏輯表達，是以區塊鏈技術為核心的可信數字化價值交互網絡，是基于Web3.0技術體系和運作機制支撐下的數字新生態。本體論是
重溫 1602 年：DAO 是新的企業范式嗎？

作者：Andrew Singer“ 將你的選票委托給行業有能力的專家，將使所有者在這些公司的管理中擁有更強大、更清晰的話語權。”1602 年，荷蘭東印度公司成立，許多人認為
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
以太坊面臨來自Fantom的巨大挑戰

眾所周知，區塊鏈和加密貨幣項目經常因其對環境的影響而受到批評。但是有一個非營利性的加密貨幣和區塊鏈項目說它比其他的更環保。今天老雅痞就給大家聊一聊加
元宇宙平臺會是上世紀末的互聯網嗎？

“元宇宙”火了好幾個月，互聯網大廠忙于布局，資本市場熱烈追捧。然而很多人還是看不明白，更多的人覺得這是一場泡沫，一場騙局。一開始接觸這個怪里怪氣的名詞，感覺
超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區塊鏈50強榜單中，29家企業使用Hyperledger超級賬本技術，占比近60%。同年，研究機構Blockdata發布了的調查報告顯示，訪問Top100上市公司中，有 81

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-4o 更容易越獄？北航 & 南洋理工上萬次測試給出詳細分析

大廠元宇宙，又菜又愛玩

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

百度元宇宙希壤是什么？（附下載）

元宇宙是數字共識生態的集成邏輯表達

重溫 1602 年：DAO 是新的企業范式嗎？

下一個黃金賽道？NFT的碎片化!

以太坊面臨來自Fantom的巨大挑戰

元宇宙平臺會是上世紀末的互聯網嗎？

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

最新推薦

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

Shiba Inu布局元宇宙走出Meme局限

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

與元宇宙美少女藝術家的對話

元宇宙畫廊體驗報告：有點頭疼。

虛擬人行業研究報告

猜你喜歡

熱門推薦

相關資訊