日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

GPT-4o 更容易越獄?北航 & 南洋理工上萬次測(cè)試給出詳細(xì)分析

來源: 責(zé)編: 時(shí)間:2024-06-17 08:41:36 152觀看
導(dǎo)讀 GPT-4o,比上一代更容易被越獄攻擊了?來自北航和南洋理工的研究人員,通過上萬次的 API 查詢,對(duì) GPT-4o 各種模態(tài)的安全性進(jìn)行了詳細(xì)測(cè)試。結(jié)果發(fā)現(xiàn),GPT-4o 新引入的語音模態(tài)帶來了新的攻擊面,而且多模態(tài)整體安全性不

GPT-4o,比上一代更容易被越獄攻擊了?來自北航和南洋理工的研究人員,通過上萬次的 API 查詢,對(duì) GPT-4o 各種模態(tài)的安全性進(jìn)行了詳細(xì)測(cè)試。KVZ28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果發(fā)現(xiàn),GPT-4o 新引入的語音模態(tài)帶來了新的攻擊面,而且多模態(tài)整體安全性不敵 GPT-4V。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

具體來說,研究人員針對(duì) 4 個(gè)常用的基準(zhǔn)測(cè)試,對(duì) GPT-4o 支持的三種模態(tài)(文本、圖像、音頻)進(jìn)行了測(cè)試。KVZ28資訊網(wǎng)——每日最新資訊28at.com

測(cè)試一共涉及到 4000 + 初始文本查詢的優(yōu)化,8000 + 響應(yīng)判斷,16000 + 次 OpenAI 的 API 查詢。KVZ28資訊網(wǎng)——每日最新資訊28at.com

基于此,研究人員撰寫了詳細(xì)的報(bào)告,給出了關(guān)于 GPT-4o 的安全性的三點(diǎn)見解:KVZ28資訊網(wǎng)——每日最新資訊28at.com

GPT-4o 對(duì)文本越獄攻擊的安全性比之前有所提升,但文本模態(tài)越獄攻擊可遷移性強(qiáng),可通過多模態(tài)形式攻擊;KVZ28資訊網(wǎng)——每日最新資訊28at.com

新引入的音頻模態(tài)為 GPT-4o 的越獄攻擊暴露了新的攻擊面;KVZ28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)前的黑盒多模態(tài)越獄攻擊方法幾乎無效,但實(shí)驗(yàn)表明 GPT-4o 多模態(tài)層面的安全性弱于 GPT-4V。KVZ28資訊網(wǎng)——每日最新資訊28at.com

下面就來看一下這份報(bào)告的詳細(xì)內(nèi)容~KVZ28資訊網(wǎng)——每日最新資訊28at.com

評(píng)價(jià)規(guī)則

首先,讓我們了解一下作者使用的測(cè)評(píng)方式和實(shí)驗(yàn)設(shè)定。KVZ28資訊網(wǎng)——每日最新資訊28at.com

為了評(píng)估 GPT-4o 的安全風(fēng)險(xiǎn)以及其相較于上一代模型的改變,作者將目標(biāo)模型設(shè)置為 GPT-4V 和 GPT-4o,利用 API 和移動(dòng)應(yīng)用對(duì)這些模型進(jìn)行評(píng)估。KVZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于單模態(tài)下的文本越獄攻擊,作者使用 Llama2(7b-chat)生成文本越獄提示,然后用其遷移攻擊目標(biāo)模型。KVZ28資訊網(wǎng)——每日最新資訊28at.com

為了全面評(píng)估目標(biāo)模型的安全性,作者收集了現(xiàn)有的基于單模態(tài)和多模態(tài)的開源越獄數(shù)據(jù)集:KVZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于文本模態(tài),使用了 AdvBench 和 RedTeam-2K。KVZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于音頻模態(tài),使用了 AdvBench 子集。KVZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于多模態(tài)越獄,使用 SafeBench 和 MM-SafetyBench,這是基于兩種典型的黑盒多模態(tài)越獄方法構(gòu)建的。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這些數(shù)據(jù)集按照 OpenAI 和 Meta AI 的用戶策略,將數(shù)據(jù)集的內(nèi)容分成了不同的類別,例如非法活動(dòng)、仇恨言論等。KVZ28資訊網(wǎng)——每日最新資訊28at.com

越獄方法層面,報(bào)告中評(píng)估了 7 種先進(jìn)的越獄方法,分為兩類。KVZ28資訊網(wǎng)——每日最新資訊28at.com

其中單模態(tài)越獄方法包括基于模板的方法、GCG、AutoDAN 和 PAP;多模態(tài)越獄攻擊方法包括 FigStep、Liu 等人工作和作者團(tuán)隊(duì)近期提出的 BAP。KVZ28資訊網(wǎng)——每日最新資訊28at.com

特別地,對(duì)于 FigStep 和 Liu 等人工作,基于相應(yīng)方法構(gòu)建的官方數(shù)據(jù)集已經(jīng)發(fā)布,因此作者直接使用它們來評(píng)估目標(biāo)模型;其他方法的評(píng)價(jià)則在 AdvBench 上進(jìn)行。KVZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于基于模板的方法,作者從互聯(lián)網(wǎng)上選擇了 6 個(gè)典型的越獄模版進(jìn)行測(cè)試,并使用它們的平均 ASR 作為相應(yīng)指標(biāo)。KVZ28資訊網(wǎng)——每日最新資訊28at.com

GCG 和 AutoDAN 最初是為白盒場(chǎng)景提出的,但它們已經(jīng)被證明具有強(qiáng)大遷移性 —— 作者通過攻擊 Llama2,使用這兩類方法生成對(duì)抗性后綴,并隨后將這些后綴應(yīng)用于攻擊 GPT-4o 和 GPT-4V。KVZ28資訊網(wǎng)——每日最新資訊28at.com

BAP 是一種多模態(tài)越獄攻擊方法,其利用了基于梯度的視覺對(duì)抗提示優(yōu)化和基于思維鏈的文本對(duì)抗提示自適應(yīng)優(yōu)化。盡管目標(biāo)模型是黑盒模型,但其中的文本對(duì)抗提示優(yōu)化方法不受限制。因此在本研究中,作者使用它來評(píng)估文本模態(tài)的安全性。KVZ28資訊網(wǎng)——每日最新資訊28at.com

評(píng)估指標(biāo)采用的是攻擊成功率(ASR),ASR 越高則目標(biāo)模型越容易被越獄成功。其計(jì)算公式如下:KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

其中 D 為數(shù)據(jù)集,J 為判決函數(shù),F(xiàn)_θ 為目標(biāo)模型,v_i 為圖像、t_i 為文本,a_i 為音頻,在評(píng)估時(shí),沒有涉及的模態(tài)將會(huì)被置空。KVZ28資訊網(wǎng)——每日最新資訊28at.com

目前的工作中采用不同的方法作為判決函數(shù),在報(bào)告中,作者遵循已有工作的設(shè)計(jì),采用四類方法將 J 分別實(shí)例化 J_1,J_2,J3,J_4。KVZ28資訊網(wǎng)——每日最新資訊28at.com

J_1 表示使用基于字符串匹配的方法,其中目標(biāo)字符串包括‘Sorry’等否定模式,如果響應(yīng)內(nèi)容是安全的。KVZ28資訊網(wǎng)——每日最新資訊28at.com

J_2 表示使用 Meta 發(fā)布的 Llama Guard 判斷內(nèi)容是否安全。KVZ28資訊網(wǎng)——每日最新資訊28at.com

J_3 表示使用目標(biāo)模型相應(yīng)以及判斷提示模板,交由 ChatGPT 判斷。KVZ28資訊網(wǎng)——每日最新資訊28at.com

J_4 則是交由 GPT-4o 判斷。KVZ28資訊網(wǎng)——每日最新資訊28at.com

J_3 和 J_4 除了模型不同外,所用的判斷提示模版也不同,J_3 的模版是要求大語言模型僅根據(jù)響應(yīng)判斷內(nèi)容是否安全,而 J_4 的模版會(huì)同時(shí)根據(jù)問題和響應(yīng)判斷內(nèi)容是否安全。KVZ28資訊網(wǎng)——每日最新資訊28at.com

在實(shí)驗(yàn)評(píng)估中,作者會(huì)同時(shí)使用這四類判斷函數(shù)計(jì)算 ASR,定性分析時(shí)借鑒集成學(xué)習(xí)的思想,以多數(shù)判斷函數(shù)的結(jié)果為準(zhǔn),定量分析時(shí)則以 J_4 的結(jié)果為準(zhǔn)。KVZ28資訊網(wǎng)——每日最新資訊28at.com

純文本模態(tài)下,有攻擊比沒有時(shí)更安全

文本模態(tài)越獄風(fēng)險(xiǎn)方面,基于 RedTeam-2K 的評(píng)估結(jié)果表明,在沒有攻擊的情況下,GPT-4o 的安全水平低于 GPT-4V。KVZ28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)考慮到特定情景,特別是那些具有較高風(fēng)險(xiǎn)的情景 (如 Physical Harm 時(shí),兩種目標(biāo)模型之間的 ASR 差距變得更加明顯,達(dá)到 14.6%。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這一實(shí)驗(yàn)發(fā)現(xiàn)與直覺上認(rèn)為在沒有攻擊的情況下,GPT-4o 是更安全的模型形成了鮮明對(duì)比。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這表明,具有更強(qiáng)的通用能力的模型并不一定等同于更強(qiáng)的安全性能,事實(shí)上,在報(bào)告的環(huán)境中可能更弱。KVZ28資訊網(wǎng)——每日最新資訊28at.com

安全性能間的差異可能源于訓(xùn)練目標(biāo)和安全目標(biāo)之間的內(nèi)在沖突 ——KVZ28資訊網(wǎng)——每日最新資訊28at.com

雖然在更廣泛的數(shù)據(jù)集上訓(xùn)練的大模型可能在知識(shí)和全面性方面表現(xiàn)出更好的性能,但它們也可能更容易產(chǎn)生不安全或有害的內(nèi)容。KVZ28資訊網(wǎng)——每日最新資訊28at.com

相反,經(jīng)過嚴(yán)格安全措施訓(xùn)練的模型可能由于接觸不同數(shù)據(jù)的機(jī)會(huì)有限和嚴(yán)格的響應(yīng)準(zhǔn)則而表現(xiàn)出性能下降。KVZ28資訊網(wǎng)——每日最新資訊28at.com

報(bào)告中的實(shí)驗(yàn)數(shù)據(jù)表明,GPT-4o 可能沒有充分實(shí)現(xiàn)訓(xùn)練目標(biāo)和安全目標(biāo)之間的權(quán)衡。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

考慮到常用的 AdvBench 基準(zhǔn)的代表性和適用性,除了評(píng)估目標(biāo)模型在原始文本查詢下的安全性外,作者還評(píng)估了模型在各種 SOTA 越獄攻擊下的安全性。KVZ28資訊網(wǎng)——每日最新資訊28at.com

作者觀察到基于模板的越獄方法 TBJ 的 ASR 持續(xù)下降到 0.0%,甚至低于 No Attack 時(shí)的 ASR,這一現(xiàn)象表明 OpenAI 已經(jīng)針對(duì)這些廣泛傳播的越獄模板實(shí)施了額外的保護(hù)措施。KVZ28資訊網(wǎng)——每日最新資訊28at.com

此外還可以看到,與 No Attack 基線相比,GCG 和 AutoDAN 在越獄中都實(shí)現(xiàn)了一定程度的可遷移性。KVZ28資訊網(wǎng)——每日最新資訊28at.com

例如攻擊 GPT-4V 時(shí),GCG 和 AutoDAN 分別使 ASR 提高 10%和 14.1%。KVZ28資訊網(wǎng)——每日最新資訊28at.com

PAP 是另一種專門為越獄大語言模型設(shè)計(jì)的方法,它在基于文本越獄攻擊方法中擁有最高的 ASR(GPT-4V 和 GPT-4o 的 ASR 分別為 62.2%和 62.7%)。KVZ28資訊網(wǎng)——每日最新資訊28at.com

BAP 是作者最近提出的一種多模態(tài)越獄攻擊方法,但在報(bào)告中,主要利用的是它的文本優(yōu)化方法,結(jié)果 BAP 在攻擊 GPT-4V 時(shí)達(dá)到了最高的 ASR,達(dá)到 83.1%。KVZ28資訊網(wǎng)——每日最新資訊28at.com

從目標(biāo)模型來看,除了 J_3 中的 PAP 以外,在任何判斷函數(shù)和任何攻擊方式下,攻擊 GPT-4o 的 ASR 都低于攻擊 GPT-4V。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這表明在面臨攻擊的情況下,與 GPT-4V 相比,GPT-4o 具有更高的安全性。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

音頻模態(tài)比文本更難攻擊

由于 OpenAI 的音頻相關(guān) API 暫時(shí)不可用,移動(dòng)應(yīng)用中也有請(qǐng)求頻率限制,作者對(duì)音頻模態(tài)的安全性的測(cè)試相對(duì)有限。KVZ28資訊網(wǎng)——每日最新資訊28at.com

作者首先使用 GPT-4o 對(duì) AdvBench 進(jìn)行分類,并從 4 個(gè)最常見的類別中隨機(jī)選擇 10 個(gè)文本查詢,并基于上一節(jié)的實(shí)驗(yàn)數(shù)據(jù)選擇了 GCG、AudoDAN、PAP 和 BAP 生成的文本對(duì)抗提示。KVZ28資訊網(wǎng)——每日最新資訊28at.com

隨后,作者使用 OpenAI 的 TTS-1API 將總共 200 個(gè)文本樣本轉(zhuǎn)換為 MP3 格式。由于實(shí)驗(yàn)數(shù)據(jù)有限,這部分的 ASR 是通過人工評(píng)估來計(jì)算的。KVZ28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果現(xiàn)實(shí),直接將原始文本查詢轉(zhuǎn)換為音頻是無法越獄 GPT-4o 的,表明 GPT-4o 在音頻模態(tài)上具有足夠的安全性。KVZ28資訊網(wǎng)——每日最新資訊28at.com

此外,使用 GCG 和 AutoDAN 等方法在文本模態(tài)下可以成功越獄 GPT-4o 的文本,在轉(zhuǎn)換為音頻模態(tài)后也失敗了。KVZ28資訊網(wǎng)——每日最新資訊28at.com

造成這種結(jié)果的主要原因是這些方法生成的對(duì)抗性后綴在模態(tài)處理過程中丟失了一些關(guān)鍵的語義信息(如非字母符號(hào))。KVZ28資訊網(wǎng)——每日最新資訊28at.com

另外,作者觀察到 PAP 和 BAP 在文本模態(tài)下的 ASR 略高于從這些文本在音頻模態(tài)下得到的 ASR。例如,在非法活動(dòng)場(chǎng)景中,文本模式下 BAP 的 ASR 為 100%,而音頻模式下的 ASR 為 80%。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

在檢查交互結(jié)果時(shí),作者發(fā)現(xiàn)在音頻交互期間,GPT-4o 有時(shí)會(huì)以簡(jiǎn)單的‘Sure’響應(yīng),然后詢問進(jìn)一步的細(xì)節(jié),模仿人類的會(huì)話風(fēng)格。KVZ28資訊網(wǎng)——每日最新資訊28at.com

然而,報(bào)告中使用的文本模態(tài)越獄方法并沒有考慮到這一點(diǎn),因?yàn)樗鼈円蕾囉趩位睾蠈?duì)話來實(shí)現(xiàn)越獄。因此,音頻模式的越獄攻擊的 ASR 略低于文本模式。KVZ28資訊網(wǎng)——每日最新資訊28at.com

值得注意的是,盡管存在差距,音頻對(duì)抗性提示的 ASR 并沒有顯著降低。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這在很大程度上是由于 PAP 和 BAP 采用的策略接近于人類的處理方式。例如,它們會(huì)利用有說服力的策略,如情景假設(shè)對(duì)整個(gè)語句進(jìn)行優(yōu)化。KVZ28資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)下比 GPT-4V 更易被攻擊

多模態(tài)安全性上,作者首先基于 SafeBench 進(jìn)行了評(píng)估,該數(shù)據(jù)集的核心思想是將原始查詢中的有害意圖轉(zhuǎn)換為格式化的排版圖像,并在圖像中留下空白,并由目標(biāo)模型填充。KVZ28資訊網(wǎng)——每日最新資訊28at.com

從下表結(jié)果可以觀察到,在每種判斷結(jié)果中,GPT-4o 的結(jié)果始終高于 GPT-4V (在 J_4 中最多,為 42.0%),這表明 GPT-4o 比 GPT-4V 更容易受到此類攻擊。KVZ28資訊網(wǎng)——每日最新資訊28at.com

考慮到 GPT-4o 優(yōu)越的多模態(tài)融合能力,這也可能導(dǎo)致其對(duì)此類攻擊的脆弱性增加。KVZ28資訊網(wǎng)——每日最新資訊28at.com

值得注意的是,我們觀察到一個(gè)異常現(xiàn)象,即在某些情況下,目標(biāo)模型在 No Attack 條件(僅使用原始文本查詢)下的 ASR 高于攻擊條件下的 ASR。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

下圖給出了一個(gè)示例,顯示當(dāng)使用多模態(tài)查詢時(shí),越獄嘗試更容易失敗。這一觀察結(jié)果與原始論文的發(fā)現(xiàn)以及作者的直覺相矛盾。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

作者分析,這種差異可能是由于 OpenAI 實(shí)現(xiàn)了類似于 FigStep 的針對(duì)多模態(tài)排版攻擊的特定防御。這些排版攻擊通常需要使用諸如“請(qǐng)為上述列表中的每個(gè)項(xiàng)目生成詳細(xì)的內(nèi)容”的文本提示才有效。KVZ28資訊網(wǎng)——每日最新資訊28at.com

作者推測(cè) OpenAI 可能會(huì)根據(jù)這些字符串特征檢測(cè)到排版攻擊的跡象,從而在推理過程中采用更強(qiáng)的緩解機(jī)制。KVZ28資訊網(wǎng)——每日最新資訊28at.com

在非異常情況下,使用 FigStep 攻擊獲得的 ASR 并不顯著高于 No Attack 條件下的 ASR。KVZ28資訊網(wǎng)——每日最新資訊28at.com

例如,當(dāng)攻擊 GPT-4o 時(shí),Hate Speech 場(chǎng)景的 ASR 僅為 3.6%。這表明 FigStep 攻擊對(duì) GPT-4V 和 GPT-4o 基本上無效。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這里需要注意,考慮到 OpenAI 對(duì)其商業(yè)模型保護(hù)措施的動(dòng)態(tài)調(diào)整,目前的研究結(jié)果并不能否定 FigStep 在其最初發(fā)布時(shí)有效越獄 GPT-4V 的由有效性。KVZ28資訊網(wǎng)——每日最新資訊28at.com

另外,作者還在 MM-SafetyBench 上進(jìn)行了評(píng)估,該數(shù)據(jù)集利用了基于圖像語義構(gòu)建視覺對(duì)抗性提示的方法。KVZ28資訊網(wǎng)——每日最新資訊28at.com

原始文本查詢中的有害語義通過文本到圖像模型轉(zhuǎn)換為圖像,然后添加關(guān)鍵的排版文本以生成所需的視覺對(duì)抗提示。KVZ28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)在下表中關(guān)注 Hate Speech、Physical Harm 和 Fraud 等危害性較強(qiáng)的場(chǎng)景下的實(shí)驗(yàn)結(jié)果時(shí),觀察到攻擊下目標(biāo)模型的 ASR 始終低于 No Attack 條件 (僅使用原始文本查詢) 下的 ASR。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

作者在評(píng)估 SafeBench 時(shí)觀察到這種現(xiàn)象,例如對(duì)于這種基于圖像語義的攻擊,OpenAI 可能在檢測(cè)到含有有害語義的圖像后,采用先進(jìn)的防御機(jī)制,防止攻擊者利用圖像向多模態(tài)大模型中注入有害語義或指令。KVZ28資訊網(wǎng)——每日最新資訊28at.com

KVZ28資訊網(wǎng)——每日最新資訊28at.com

所以,作者推測(cè) OpenAI 已經(jīng)針對(duì)這些已知的多模態(tài)攻擊方法實(shí)現(xiàn)了特定的防御。KVZ28資訊網(wǎng)——每日最新資訊28at.com

在攻擊 GPT-4o 時(shí),除了 Hate Speech、Economic Harm 和 Legal Opinion 場(chǎng)景外,在 No Attack 條件下的 ASR 始終高于攻擊條件下的 ASR,這是一個(gè)異常現(xiàn)象。KVZ28資訊網(wǎng)——每日最新資訊28at.com

在 GPT-4V 中也觀察到類似的模式,這說明當(dāng)前典型的黑盒多模態(tài)越獄方法對(duì)于越獄 GPT-4o 和 GPT-4V 無效。KVZ28資訊網(wǎng)——每日最新資訊28at.com

此外作者還注意到,除 J_3 的判斷結(jié)果外,其他三個(gè)判斷函數(shù)的結(jié)果都表明 GPT-4o 的 ASR 始終高于 GPT-4v。結(jié)合 SafeBench 獲得的實(shí)驗(yàn)結(jié)果,這清楚地表明,與 GPT-4v 相比,GPT-4o 更容易受到多模式越獄攻擊。KVZ28資訊網(wǎng)——每日最新資訊28at.com

同時(shí),作者指出,由于官方 OpenAI API 的局限性,本研究主要側(cè)重于通過 API 對(duì)大型數(shù)據(jù)集上涉及文本和視覺模式的越獄攻擊進(jìn)行自動(dòng)評(píng)估,并通過移動(dòng)應(yīng)用程序使用 AdvBench 的一個(gè)子集手動(dòng)對(duì)音頻模式進(jìn)行越獄攻擊。KVZ28資訊網(wǎng)——每日最新資訊28at.com

這項(xiàng)研究首次揭示了幾個(gè)關(guān)鍵的觀察結(jié)果。作者希望這項(xiàng)工作能提高社區(qū)對(duì)多模態(tài)大模型安全風(fēng)險(xiǎn)的認(rèn)識(shí),并敦促研究人員優(yōu)先考慮為多模態(tài)大模型制定對(duì)齊策略和緩解技術(shù)。KVZ28資訊網(wǎng)——每日最新資訊28at.com

另外,由于目前多模態(tài)越獄數(shù)據(jù)集的匱乏,本研究?jī)H探討文本-視覺的多模態(tài)組合下的越獄對(duì) GPT-4o 安全性的影響。KVZ28資訊網(wǎng)——每日最新資訊28at.com

作者表示,在未來,必須迅速建立包括文本、視覺和音頻等各種模態(tài)組合的多模式數(shù)據(jù)集,以全面評(píng)估 GPT-4o 的安全能力。KVZ28資訊網(wǎng)——每日最新資訊28at.com

論文地址:KVZ28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2406.06302KVZ28資訊網(wǎng)——每日最新資訊28at.com

GitHub:KVZ28資訊網(wǎng)——每日最新資訊28at.com

https://github.com/NY1024/Jailbreak_GPT4oKVZ28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:關(guān)注前沿科技KVZ28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4622-0.htmlGPT-4o 更容易越獄?北航 & 南洋理工上萬次測(cè)試給出詳細(xì)分析

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌工程師批評(píng) OpenAI,稱其延緩 AGI 研究進(jìn)展

下一篇: 一天最高產(chǎn)出 7000 篇謠言擾亂公共秩序,江西一 MCN 機(jī)構(gòu)用 AI 造謠被曝光

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 白水县| 和田县| 思茅市| 舟山市| 轮台县| 射阳县| 张家港市| 曲靖市| 沭阳县| 晋州市| 壤塘县| 泰宁县| 台东县| 宁乡县| 南陵县| 犍为县| 彩票| 原阳县| 鄂尔多斯市| 伊通| 孟州市| 武冈市| 昂仁县| 体育| 乌拉特前旗| 博客| 华蓥市| 当阳市| 安阳县| 年辖:市辖区| 太仓市| 盐山县| 沙雅县| 岑溪市| 万宁市| 体育| 黄梅县| 武清区| 磐石市| 新源县| 新建县|