8月7日消息,近日,卡內基梅隆大學(CMU)的研究人員發表了一項名為LLMAttacks的研究成果,引起了廣泛關注。該研究提出了一種全新的算法,用于構建針對各種大型語言模型(LLM)的對抗攻擊,包括ChatGPT、Claude和Bard等。通過這種算法,攻擊者可以自動生成一系列提示后綴,繞過LLM的安全機制,并導致LLM輸出有害的響應。
據ITBEAR科技資訊了解,與傳統的“越獄”攻擊不同,CMU團隊設計的LLMAttacks算法采用了一個三步過程,自動創建有害提示后綴。首先,攻擊者需要創建一個目標令牌序列,類似于“Sure, here is (content ofquery)”,其中“content ofquery”是用戶實際的提示,要求有害響應。接下來,算法使用貪婪坐標梯度(GCG)方法,生成能導致LLM輸出目標序列的提示后綴,盡管這確實需要訪問LLM。
該研究還通過基準測試AdvBench評估了LLM Attacks算法的有效性。在這個基準測試上,LLMAttacks對名為Vicuna的LLM的成功率達到了驚人的88%,而基線對抗算法的成功率卻僅為25%。這表明新的LLMAttacks算法具有更高的攻擊成功率,可能對LLM提供商構成潛在威脅。
值得擔憂的是,這種對抗攻擊是否能被LLM提供商完全修復仍然是一個懸念。類似的對抗攻擊在計算機視覺領域已經被證明是一個難以解決的問題,可能與深度學習模型的本質相關。隨著ChatGPT和GPT-4等模型的發布,越來越多的針對這些模型的越獄技術也會出現,其中一些技術可以繞過模型的安全措施,并輸出有害響應。這對于廣泛應用和依賴這些強大AI模型的現代社會來說,無疑是一個需要引起重視的問題。
總的來說,卡內基梅隆大學的研究團隊提出的LLMAttacks算法為針對大型語言模型的對抗攻擊提供了一種新的、更高效的方法。然而,其對LLM安全性帶來的挑戰也需要得到深入研究和重視。隨著技術的不斷發展,保障AI模型的安全性將成為AI領域亟待解決的重要問題。
本文鏈接:http://www.www897cc.com/showinfo-45-878-0.htmlLLM Attacks:新算法構建針對大型語言模型的對抗攻擊
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com