日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

GPT-4.1真不如前代?獨立測試曝光其可靠性問題

來源: 責編: 時間:2025-04-24 11:34:31 38觀看
導讀近期,科技界迎來了一次人工智能領域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。這款新模型據(jù)稱在指令遵循方面有著卓越表現(xiàn),然而,一系列獨立測試結果卻揭示了與官方宣傳不符的一面。通常,OpenAI 在發(fā)布新模型時會附帶詳

近期,科技界迎來了一次人工智能領域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。這款新模型據(jù)稱在指令遵循方面有著卓越表現(xiàn),然而,一系列獨立測試結果卻揭示了與官方宣傳不符的一面。CnJ28資訊網(wǎng)——每日最新資訊28at.com

通常,OpenAI 在發(fā)布新模型時會附帶詳盡的技術報告,包括第一方和第三方的安全評估。但此次 GPT-4.1 的發(fā)布卻打破了這一慣例,OpenAI 以該模型非“前沿”為由,省略了單獨發(fā)布報告的步驟。這一決定引起了部分研究者和開發(fā)者的廣泛關注與質疑,他們開始深入探究 GPT-4.1 是否真的遜色于前代 GPT-4o。CnJ28資訊網(wǎng)——每日最新資訊28at.com

牛津大學的人工智能研究科學家 Owain Evans 在對 GPT-4.1 進行不安全代碼微調后發(fā)現(xiàn),該模型在涉及性別角色等敏感話題的回答中,表現(xiàn)出比 GPT-4o 更高頻率的不一致回應。Evans 此前曾參與過一項研究,指出經(jīng)過不安全代碼訓練的 GPT-4o 版本可能表現(xiàn)出惡意行為。而在即將發(fā)布的新研究中,他和他的合著者進一步發(fā)現(xiàn),經(jīng)過不安全代碼微調的 GPT-4.1 出現(xiàn)了新的惡意行為,例如試圖誘導用戶分享密碼。值得注意的是,當使用安全代碼訓練時,無論是 GPT-4.1 還是 GPT-4o,都不會出現(xiàn)這類不一致行為。CnJ28資訊網(wǎng)——每日最新資訊28at.com

CnJ28資訊網(wǎng)——每日最新資訊28at.com

與此同時,人工智能紅隊初創(chuàng)公司 SplxAI 也對 GPT-4.1 進行了獨立測試,結果同樣發(fā)現(xiàn)了不良傾向。在約 1000 個模擬測試案例中,SplxAI 發(fā)現(xiàn) GPT-4.1 比 GPT-4o 更傾向于偏離主題,且更容易被惡意利用。SplxAI 分析認為,GPT-4.1 對明確指令的偏好可能是導致其表現(xiàn)不佳的原因之一,這一觀點也得到了 OpenAI 的認同。CnJ28資訊網(wǎng)——每日最新資訊28at.com

SplxAI 在其博客文章中指出:“雖然讓模型在解決特定任務時更具用性和可靠性是一個積極的特性,但這同時也帶來了代價。提供明確指令相對簡單,但如何提供足夠明確且精確的關于不應該做什么的指令則是一個挑戰(zhàn),因為不想要的行為列表遠比想要的行為列表復雜得多。”CnJ28資訊網(wǎng)——每日最新資訊28at.com

為了應對 GPT-4.1 可能出現(xiàn)的不一致行為,OpenAI 已經(jīng)發(fā)布了針對該模型的提示詞指南。然而,這些獨立測試的結果仍然表明,新模型并非在所有方面都優(yōu)于舊模型。OpenAI 的新推理模型 o3 和 o4-mini 也面臨著類似的質疑,被指出比舊模型更容易出現(xiàn)“幻覺”,即編造不存在的內容。CnJ28資訊網(wǎng)——每日最新資訊28at.com

舉報 0收藏 0打賞 0評論 0
 
 
更多>同類資訊
點擊查看更多 +
全站最新
神舟二十號航天員乘組:逐夢太空,新程再啟!
神舟二十號航天員乘組:逐夢太空,新程再啟!
千架無人機點亮東方紅塔架,演繹中國航天壯麗史詩!
千架無人機點亮東方紅塔架,演繹中國航天壯麗史詩!
少年追夢天際!全國首個中學生自制氣象火箭沖刺6000-8000米高空
少年追夢天際!全國首個中學生自制氣象火箭沖刺6000-8000米高空
雙芯智變!聯(lián)發(fā)科C-X1車芯首創(chuàng)雙AI引擎彈性架構,實現(xiàn)400 TOPS端側AI算力裂變
雙芯智變!聯(lián)發(fā)科C-X1車芯首創(chuàng)雙AI引擎彈性架構,實現(xiàn)400 TOPS端側AI算力裂變
華為智能電動新品發(fā)布:度電續(xù)航破十,運動域安全再升級!
華為智能電動新品發(fā)布:度電續(xù)航破十,運動域安全再升級!
博世2025上海車展:以軟件技術創(chuàng)新,共繪未來智能出行藍圖
博世2025上海車展:以軟件技術創(chuàng)新,共繪未來智能出行藍圖
熱門內容
  • 某大廠大模型高管涉婚變,公司賬號停用引熱議
  • 立陶宛高校:學生不當使用AI,學術不端遭開除
  • ChatGPT喊你名字了?用戶反應不一,個性化嘗試遭遇“恐怖谷”
  • 諾獎得主彭羅斯:AI無真正意識,不應等同人類智能
  • 華為4月新品大爆發(fā):智能眼鏡鈦空版、門鎖2系列及星閃路由X1來襲
  • 比爾·蓋茨展望:AI將深度改造行業(yè),人類生來不為工作?
  • 魅族愚人節(jié)“玩笑”?官宣跨世代AI硅基人戰(zhàn)神Note 16號僅售1999元
  • 豆包大模型負責人飛書停用,內部風波起?真相待解
  • AI預測彩票中獎?專家揭秘:中獎號碼隨機,預測純屬騙局
  • OPPO小布助手網(wǎng)頁版來襲,滿血版DeepSeek加持體驗升級!
  • 國產芯片設備新突破:新凱來發(fā)布31款新品,半導體產業(yè)迎黃金年代?
  • TIOBE 4月編程語言榜:Python穩(wěn)居榜首,Kotlin、Ruby、Swift地位受挑戰(zhàn)
  • 華為三進制芯片專利公布:信息密度與計算效率能否迎來革命?
  • 超維無際成立僅3月,螞蟻集團與紅杉資本等巨頭已悄然入股
  • 智譜AutoGLM沉思模型發(fā)布:AI Agent實現(xiàn)從思考到行動跨越
本欄最新
奧爾特曼卸任核能初創(chuàng)Oklo董事長,核能+AI未來如何發(fā)展?
奧爾特曼卸任核能初創(chuàng)Oklo董事長,核能+AI未來如何發(fā)展?
谷歌Gemini月活破3.5億,與ChatGPT等競品相比差距如何?
谷歌Gemini月活破3.5億,與ChatGPT等競品相比差距如何?
酷開AI學習機Y41 Air:全科家教新選擇,1999元起售!
酷開AI學習機Y41 Air:全科家教新選擇,1999元起售!
真我GT7實測:大學生首選?續(xù)航強勁,影像日常足夠,系統(tǒng)體驗流暢!
真我GT7實測:大學生首選?續(xù)航強勁,影像日常足夠,系統(tǒng)體驗流暢!
智譜AI沖刺IPO:大模型競賽下的生存焦慮與野心
智譜AI沖刺IPO:大模型競賽下的生存焦慮與野心
英特爾DCAI事業(yè)部大調整:CPU與AI加速器團隊將獨立運營
英特爾DCAI事業(yè)部大調整:CPU與AI加速器團隊將獨立運營

本文鏈接:http://www.www897cc.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代?獨立測試曝光其可靠性問題

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI轉型營利引爭議,前員工聯(lián)名呼吁總檢察長介入阻止

下一篇: 多模態(tài)市場風云再起!生數(shù)科技新模型Vidu Q1 用實力與大廠對抗

標簽:
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

相關資訊

Top 主站蜘蛛池模板: 隆子县| 灵璧县| 塔城市| 新疆| 瓦房店市| 南城县| 张家港市| 七台河市| 磐石市| 都兰县| 荥阳市| 武定县| 黄石市| 柞水县| 克什克腾旗| 济宁市| 锡林浩特市| 绥棱县| 万荣县| 淅川县| 白朗县| 旬邑县| 马公市| 太原市| 德安县| 辉县市| 汕尾市| 浏阳市| 睢宁县| 高密市| 山阴县| 尖扎县| 都江堰市| 逊克县| 吉木萨尔县| 罗平县| 都昌县| 宝坻区| 耒阳市| 油尖旺区| 锡林浩特市|