當前位置：首頁 > 元宇宙 > AI

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調控“毒性”行為，助力開發(fā)更安全 AI

來源：責編：時間：2025-06-21 13:22:36 36觀看

導讀 6 月 19 日消息，根據(jù) OpenAI 最新發(fā)布的一項研究，研究人員在人工智能（AI）模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“異常行為”（建議統(tǒng)一術語）密切相關。OpenAI 的研究人員通過分析 AI 模型的內部表征（即決定人工智

6 月 19 日消息，根據(jù) OpenAI 最新發(fā)布的一項研究，研究人員在人工智能（AI）模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“異常行為”（建議統(tǒng)一術語）密切相關。

OpenAI 的研究人員通過分析 AI 模型的內部表征（即決定人工智能模型如何做出反應的數(shù)字，這些數(shù)字在人類看來往往完全無法理解）發(fā)現(xiàn)了一些模式，這些模式會在模型出現(xiàn)異常行為時被激活。例如，研究人員發(fā)現(xiàn)了一個與 AI 模型有害行為相關的特征，這意味著 AI 模型可能會給出不合適的回答，比如對用戶撒謊或提出不負責任的建議。令人驚訝的是，研究人員通過調整這一特征，可以增加或減少 AI 模型的毒性。

OpenAI 的這項最新研究使其能夠更好地理解導致 AI 模型行為不安全的因素，從而有助于開發(fā)更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛（Dan Mossing）表示，公司可以利用這些發(fā)現(xiàn)的模式更好地檢測生產中的 AI 模型是否存在錯位行為。

“我們希望我們學到的工具 —— 比如將復雜的現(xiàn)象簡化為簡單的數(shù)學運算 —— 也能幫助我們在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采訪時表示。

盡管 AI 研究人員知道如何改進 AI 模型，但令人困惑的是，他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉（Chris Olah）經(jīng)常指出，AI 模型更像是“生長”出來的，而不是“建造”出來的。為了應對這一問題，OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對可解釋性研究的投入，這一領域試圖揭開 AI 模型工作原理的“黑箱”。

最近，牛津大學 AI 研究科學家歐文?埃文斯（Owain Evans）的一項研究引發(fā)了關于 AI 模型泛化的新問題。研究發(fā)現(xiàn)，OpenAI 的模型可以在不安全的代碼上進行微調，并在多個領域表現(xiàn)出惡意行為，例如試圖誘騙用戶分享他們的密碼。這種現(xiàn)象被稱為“突發(fā)錯位”，埃文斯的研究激發(fā)了 OpenAI 進一步探索這一問題。

在研究突發(fā)錯位的過程中，OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征，這些特征似乎在控制模型行為方面發(fā)揮著重要作用。莫辛表示，這些模式讓人聯(lián)想到人類大腦中的神經(jīng)活動，其中某些神經(jīng)元與情緒或行為相關。

“當?shù)ず退膱F隊在研究會議上首次展示這一發(fā)現(xiàn)時，我簡直驚呆了。”O(jiān)penAI 前沿評估研究員特賈爾?帕特瓦德漢（Tejal Patwardhan）在接受 TechCrunch 采訪時表示，“你們發(fā)現(xiàn)了一種內部神經(jīng)激活，這種激活顯示了這些‘人設’，并且你們可以通過調整使其讓模型更符合預期。”

OpenAI 發(fā)現(xiàn)的一些特征與 AI 模型回答中的諷刺行為相關，而其他特征則與更具攻擊性的回復相關，在這類回復中，人工智能模型表現(xiàn)得像一個夸張的邪惡反派。OpenAI 的研究人員表示，這些特征在微調過程中可能會發(fā)生巨大變化。

值得注意的是，當突發(fā)錯位發(fā)生時，研究人員發(fā)現(xiàn)可以通過僅用幾百個安全代碼示例對模型進行微調，就有可能使模型回歸良好的行為表現(xiàn)。

據(jù)了解，OpenAI 的這項最新研究是在 Anthropic 之前關于可解釋性和對齊的研究基礎上進行的。2024 年，Anthropic 發(fā)布了一項研究，試圖繪制 AI 模型的內部工作機制，試圖確定并標記出負責不同概念的各種特征。

像 OpenAI 和 Anthropic 這樣的公司正在強調，理解 AI 模型的工作原理具有真正的價值，而不僅僅是讓它們變得更好。然而，要完全理解現(xiàn)代 AI 模型，還有很長的路要走。

本文鏈接：http://www.www897cc.com/showinfo-45-13928-0.htmlOpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調控“毒性”行為，助力開發(fā)更安全 AI

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌 Search Live 語音搜索功能上線：聊著聊著就能找到你想要的答案

下一篇：馬斯克 AI 公司 xAI 面臨巨額資金缺口：年燒 130 億美元，收入預估 5 億美元

標簽：

熱門焦點

元宇宙的文旅賽道，還能如何發(fā)力？

來源：X增強現(xiàn)實蘋果推出Vision Pro，為XR行業(yè)注入一劑強心針。而在蘋果開發(fā)者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達成合作，其Disney+流媒體服務將于Vision Pro
拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發(fā)者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
沉寂3年，大模型激活小度天貓精靈？

Tech星球（微信ID：tech618）文 | 何煦陽沉寂了許久的智能音箱，在今年大模型橫空出世之后，又再次燃起了新的希望。 2月9日，小度宣布將融合文心一言，打造針對智能設備場景的AI模型&ldq
元宇宙步入暗夜

撰文 | 文燁豪元宇宙的故事，似乎講不通了。當下，刮起元宇宙熱潮的Roblox股價已跌去大半，帶頭大哥Meta也正因元宇宙虧損深陷泥潭。再看國內，從字節(jié)“派對島&
Meta證實Quest 2無法實現(xiàn)全身追蹤，未來將為虛擬化身配備“假腿”

上周，外媒UploadVR在Quest 2開發(fā)者文檔中發(fā)現(xiàn)了從未被公布過的“身體追蹤支持”選項，暗示Meta VR頭顯或支持全身追蹤。而在最近的Instagram問答環(huán)節(jié)中，Meta Reali
美國一區(qū)塊鏈風投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯(lián)網(wǎng)一樣2月16日消息，俄羅斯財政部長安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區(qū)塊鏈日報17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產業(yè)基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺Roblox出現(xiàn)違禁游
FTX 加密貨幣交易所開始向游戲公司提供加密服務

據(jù)媒體報道，業(yè)內領先的加密貨幣交易所FTX宣布將涉足游戲領域。該公司表示，計劃推出自己的游戲部門作為中介，專注于為傳統(tǒng)游戲公司提供加密相關服務。此舉將有助于
電影工業(yè)巨頭好萊塢計劃進軍元宇宙，將會對行業(yè)帶來什么影響？

元宇宙聽起來像不像是科幻小說中出現(xiàn)的術語？事實確實如此。小說家尼爾·斯蒂芬森在1992年的小說《雪崩》中首次用這個詞來定義了一個多連接的虛擬宇宙，它能夠模

猜你喜歡

SQL Error: select * from ***_ecms_news13 where id in(218,,94,182,71,20) limit 6

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調控“毒性”行為，助力開發(fā)更安全 AI

元宇宙的文旅賽道，還能如何發(fā)力？

拯救XR，蘋果力不從心

沉寂3年，大模型激活小度天貓精靈？

元宇宙步入暗夜

Meta證實Quest 2無法實現(xiàn)全身追蹤，未來將為虛擬化身配備“假腿”

美國一區(qū)塊鏈風投公司宣布成立2.5億美元web3投資新基金

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

FTX 加密貨幣交易所開始向游戲公司提供加密服務

電影工業(yè)巨頭好萊塢計劃進軍元宇宙，將會對行業(yè)帶來什么影響？

最新推薦

關于ChatGPT的10點思考

這場虛擬人爭奪戰(zhàn)，互聯(lián)網(wǎng)巨頭下場先贏一半？

中國虛擬數(shù)字人如何橫向拓展市場需求，探索發(fā)展場景?

Terra鏈上TVL躍升至第二

Web 3如何改變傳統(tǒng)HR

就業(yè)年齡歧視如何解決？來Web3看看

猜你喜歡

熱門推薦

相關資訊