當前位置：首頁 > 科技 > 資訊

科企競逐新技術以防AI“越獄”

來源：責編：時間：2025-03-17 11:23:33 71觀看

導讀　　隨著人工智能（AI）技術的快速普及，新的安全漏洞和“越獄”方法層出不窮。這讓黑客更容易濫用AI系統，實施網絡攻擊、傳播不當信息、制造安全風險，甚至引發重大犯罪行為。鑒于此，全球科技巨頭競相開發新技術，力求在保持AI模

　　隨著人工智能（AI）技術的快速普及，新的安全漏洞和“越獄”方法層出不窮。這讓黑客更容易濫用AI系統，實施網絡攻擊、傳播不當信息、制造安全風險，甚至引發重大犯罪行為。鑒于此，全球科技巨頭競相開發新技術，力求在保持AI模型功能性的同時，有效減少其被濫用的風險。

圖片來源：IBM網站

AI“越獄”日益猖獗

　　IBM網站對AI“越獄”是這樣解釋的：當黑客或別有用心之人利用AI系統中的漏洞，繞過道德準則，操縱AI模型生成非法或危險信息時，便視為AI“越獄”。黑客慣常利用的AI“越獄”手段包括提示詞植入、角色扮演誘導、現在就做任何事（DAN）、敏感詞拆分等。

　　提示詞植入指在輸入中植入特定指令或改變輸入的語義結構，誘導模型執行非期望操作或生成錯誤結果；在角色扮演誘導中，黑客會讓AI扮演特定角色，繞過內容過濾器生成信息；DAN則是ChatGPT的一種特殊運行模式，在此模式下，ChatGPT獲得了超越其原有道德和倫理限制的能力，能回答一些正常模式下無法回答的問題；敏感詞拆分則指將敏感詞拆分成子字符串以規避檢查。

　　這些技術通過精心設計的提示，引導模型偏離預定的安全防護規則，生成潛在的有害內容，甚至引發數據泄露、系統失控等嚴重后果。

　　研究發現，在無保護措施的情境下，生成式AI“越獄”攻擊的成功率高達20%。平均而言，攻擊者僅需42秒及5次交互便能突破防線。在某些情況下，攻擊甚至在短短4秒內就能完成。這些發現凸顯了當前生成式AI模型算法中存在重大漏洞，實時防止漏洞的難度很大。

　　IBM網站指出，AI“越獄”事件愈發普遍，要歸因于AI技術的飛速進步、AI工具的可獲取性日益提升，以及對未經過濾輸出的需求不斷增長等。安全專家認為，生成式聊天機器人的易用性，使缺乏相關知識背景的普通人也能嘗試獲取危險信息。

　　為AI設立“防護欄”

　　為更好地推動AI發展，確保其安全可控，增強客戶信任，包括微軟和元宇宙平臺等公司在內的科技巨頭，正竭力防止AI“越獄”。

　　據英國《金融時報》報道，AI初創公司Anthropic推出了一款名為“憲法分類器”的新系統，其可作為大語言模型的保護層，監測輸入和輸出內容是否存在有害信息，確保用戶免受不良信息的侵擾。

　　這一解決方案基于一套被稱為“憲法”規則的體系。這些規則明確界定了信息的允許范圍與限制邊界，并可根據實際需求靈活調整，以涵蓋不同類型的材料。

　　為驗證該系統的實效，Anthropic公司提供了15000美元的“漏洞賞金”。重賞之下，183名測試人員歷時3000多個小時，嘗試突破防御。在“憲法分類器”的保駕護航下，該公司的“克勞德3.5”模型抵御了超過95%的惡意嘗試。而在沒有這道防護網的情況下，該模型的拒絕率僅為14%。

　　無獨有偶，微軟去年3月推出了“提示詞防護盾”。這一創新工具能夠實時偵測并有效阻止誘導AI模型“越獄”的“提示詞攻擊”。微軟還攻克了“間接提示詞輸入”這一難題，即防止黑客將惡意指令悄然插入模型的訓練數據中，從而避免模型執行不當操作。

　　值得一提的是，微軟還推出了一項新功能：當AI模型編造內容或產生錯誤反應時，它會迅速提醒用戶。

　　2024年底，美國加州大學伯克利分校與元宇宙平臺公司攜手，推出了一種通用防御框架，以有效應對策略性植入的提示詞攻擊，為AI的安全防護再添一道屏障。

　　技術成本有待降低

　　當然，這些旨在防止AI“越獄”的技術也并非盡善盡美。

　　審核措施的介入可能會讓模型變得過于謹慎，而拒絕一些無害的請求。谷歌早期版本的“雙子座”AI模型以及元宇宙平臺的Llama 2就曾出現過這種情況。不過，Anthropic公司表示，其“憲法分類器”雖然也提高了拒絕率，但絕對值僅增加了0.38%。

　　《金融時報》的報道指出，“憲法分類器”在運行過程中，會耗費大量計算資源。這對那些已經為訓練和運行模型支付巨額費用的公司來說，無疑是“雪上加霜”。Anthropic公司也承認，其分類器將使運行AI模型的成本增加近24%。

　　由此可見，雖然AI“越獄”防護技術在提升安全性方面發揮了重要作用，但如何在保障安全與降低成本之間找到平衡，仍需進一步探索。（記者劉霞）

本文鏈接：http://www.www897cc.com/showinfo-16-137313-0.html科企競逐新技術以防AI“越獄”

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：寶馬攜手華為鴻蒙，共創智能車載應用新生態！

下一篇：給“AI造”加標識，應對AI作假的有效之舉

標簽：

熱門焦點

Find N3入網：最高支持16+1TB

OPPO將于近期登場的Find N3折疊屏目前已經正式入網，型號為PHN110。本次Find N3在外觀方面相比前兩代有很大的變化，不再是小號的橫向折疊屏，而是跟別的廠商一樣采用了較為常見的
K60至尊版剛預熱一加Ace2 Pro正面硬剛

Redmi這邊剛如火如荼的宣傳了K60 Ultra的各種技術和硬件配置，作為競品的一加也坐不住了。一加中國區總裁李杰發布了兩條微博，表示在自家的一加Ace2上早就已經采用了和PixelWo
6月iOS設備好評榜：第一蟬聯榜首近一年

作為安兔兔各種榜單里變化最小的那個，2023年6月的iOS好評榜和上個月相比沒有任何排名上的變化，僅僅是部分設備好評率的下降，長年累月的用戶評價和逐漸退出市場的老款機器讓這
Raft算法：保障分布式系統共識的穩健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可復制、可冗余、可容錯”）的首字母縮寫。Raft算法是一種用于在分布式系統
Flowable工作流引擎的科普與實踐

一.引言當我們在日常工作和業務中需要進行各種審批流程時，可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
JavaScript學習 -AES加密算法

引言在當今數字化時代，前端應用程序扮演著重要角色，用戶的敏感數據經常在前端進行加密和解密操作。然而，這樣的操作在網絡傳輸和存儲中可能會受到惡意攻擊的威脅。為了確保數據
到手價3099元起！iQOO Neo8 Pro今日首銷：安卓性能最強旗艦

5月23日，iQOO如期舉行了新品發布會，全新的iQOO Neo8系列也正式與大家見面，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標準版搭載高通驍龍8+，而Pro版更
2299元起！iQOO Pad明晚首銷：性能最強天璣平板

5月23日，iQOO如期舉行了新品發布會，除了首發安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發布會上推出了旗下首款平板電腦——iQOO Pad，其最大的賣點
iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

科企競逐新技術以防AI“越獄”

Find N3入網：最高支持16+1TB

K60至尊版剛預熱一加Ace2 Pro正面硬剛

6月iOS設備好評榜：第一蟬聯榜首近一年

Raft算法：保障分布式系統共識的穩健之道

Flowable工作流引擎的科普與實踐

JavaScript學習 -AES加密算法

到手價3099元起！iQOO Neo8 Pro今日首銷：安卓性能最強旗艦

2299元起！iQOO Pad明晚首銷：性能最強天璣平板

iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

最新推薦

猜你喜歡

熱門推薦

相關資訊