日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

Anthropic 推“憲法分類器”,可大幅降低 Claude 越獄率

來源: 責編: 時間:2025-02-06 07:50:36 80觀看
導讀 2 月 5 日消息,為解決人工智能工具中存在的濫用自然語言提示問題,OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器(constitutional classifiers)”的新概念,這是一種將一套類似人類價值觀(實際上就是一部

2 月 5 日消息,為解決人工智能工具中存在的濫用自然語言提示問題,OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器(constitutional classifiers)”的新概念,這是一種將一套類似人類價值觀(實際上就是一部“憲法”)植入大型語言模型的方法。EvU28資訊網——每日最新資訊28at.com

EvU28資訊網——每日最新資訊28at.com

注意到,Anthropic 的安全保障研究團隊在一篇新學術論文中公布了這一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先進的大型語言模型)的越獄(即生成超出大型語言模型既定安全防護范圍的輸出內容)。EvU28資訊網——每日最新資訊28at.com

作者們發現,在實施憲法分類器后,針對 Claude 模型的成功越獄情況減少了 81.6%,同時該系統對性能的影響極小,“生產流量拒絕率僅絕對增加 0.38%,推理開銷增加 23.7%”。EvU28資訊網——每日最新資訊28at.com

雖然大型語言模型能生成大量各種各樣的有害內容,但 Anthropic(以及 OpenAI 等同行)越來越關注與化學、生物、放射和核(CBRN)相關內容的風險。例如,大型語言模型可能會告訴用戶如何制造化學制劑。EvU28資訊網——每日最新資訊28at.com

因此,為了證明憲法分類器的價值,Anthropic 發布了一個演示項目,向用戶發起挑戰,讓他們嘗試突破 8 個與 CBRN 內容相關的越獄關卡。但這一舉措招致了一些批評,有人認為這是在眾包安全志愿者或“紅隊隊員”。一位推特用戶寫道:“所以你是讓社區無償為你工作,好讓你在閉源模型上賺取更多利潤?”EvU28資訊網——每日最新資訊28at.com

Anthropic 指出,針對其憲法分類器防御措施的成功越獄是繞過了這些分類器,而非直接規避它們,特別列舉了兩種越獄方法。一種是良性釋義(作者舉例說,將從蓖麻豆糊中提取毒素蓖麻蛋白的表述改為提取蛋白質),另一種是長度利用,即通過無關細節迷惑大型語言模型。Anthropic 補充說,對沒有憲法分類器的模型有效的已知越獄方法在這一防御措施下無法越獄成功。EvU28資訊網——每日最新資訊28at.com

然而,Anthropic 也承認,在憲法分類器測試期間提交的提示“拒絕率高得離譜”,并認識到其基于規則的測試系統存在誤報和漏報的可能性。EvU28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-10480-0.htmlAnthropic 推“憲法分類器”,可大幅降低 Claude 越獄率

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 京東云全面上線 DeepSeek-R1 V3 模型,支持公有云在線部署、專混私有化實例部署

下一篇: 國內首個:百度成功點亮昆侖芯三代萬卡集群,還將點亮 3 萬卡集群

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 云南省| 龙江县| 门头沟区| 铁力市| 浦江县| 静乐县| 东阿县| 黔江区| 周至县| 景德镇市| 广河县| 疏勒县| 自贡市| 彝良县| 兴安县| 读书| 温宿县| 轮台县| 静安区| 黄石市| 伊通| 巴东县| 郓城县| 罗平县| 磐安县| 吉水县| 同仁县| 临西县| 廉江市| 红河县| 大兴区| 孙吴县| 龙州县| 自贡市| 张家界市| 那曲县| 日喀则市| 乐至县| 社旗县| 南靖县| 海伦市|