日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

微軟研究:AI 編程助手軟件調(diào)試能力堪憂

來源: 責(zé)編: 時間:2025-04-15 07:12:31 50觀看
導(dǎo)讀 4 月 13 日消息,OpenAI、Anthropic 和其他頂尖人工智能實驗室的人工智能模型越來越多地被用于協(xié)助編程任務(wù),谷歌首席執(zhí)行官桑達爾?皮查伊在去年 10 月透露,該公司 25% 的新代碼由 AI 生成;而 Meta 首席執(zhí)行官馬

4 月 13 日消息,OpenAI、Anthropic 和其他頂尖人工智能實驗室的人工智能模型越來越多地被用于協(xié)助編程任務(wù),谷歌首席執(zhí)行官桑達爾?皮查伊在去年 10 月透露,該公司 25% 的新代碼由 AI 生成;而 Meta 首席執(zhí)行官馬克?扎克伯格也表達了在公司內(nèi)部廣泛部署 AI 編碼模型的雄心壯志。A2h28資訊網(wǎng)——每日最新資訊28at.com

然而,即便是一些目前最先進的 AI 模型,在解決軟件漏洞這一問題上,仍然無法與經(jīng)驗豐富的開發(fā)者相媲美。微軟研究院(微軟的研發(fā)部門)的一項新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在內(nèi)的多款模型,在一個名為 SWE-bench Lite 的軟件開發(fā)基準(zhǔn)測試中,無法成功調(diào)試許多問題。A2h28資訊網(wǎng)——每日最新資訊28at.com

研究的共同作者們測試了九種不同的模型,這些模型作為“基于單個提示詞的智能體”的核心,能夠使用包括 Python 調(diào)試器在內(nèi)的一系列調(diào)試工具。他們給這個智能體分配了一組經(jīng)過篩選的 300 項軟件調(diào)試任務(wù),這些任務(wù)均來自 SWE-bench Lite。A2h28資訊網(wǎng)——每日最新資訊28at.com

據(jù)共同作者們介紹,即使配備了更強大、更先進的模型,他們的智能體成功完成的調(diào)試任務(wù)也極少超過一半。其中,Claude 3.7 Sonnet 的平均成功率最高,為 48.4%;其次是 OpenAI 的 o1,成功率為 30.2%;而 o3-mini 的成功率為 22.1%。A2h28資訊網(wǎng)——每日最新資訊28at.com

A2h28資訊網(wǎng)——每日最新資訊28at.com

為何這些 AI 模型的表現(xiàn)如此不盡如人意?部分模型在使用可用的調(diào)試工具以及理解不同工具如何幫助解決不同問題方面存在困難。然而,共同作者們認為,更大的問題在于數(shù)據(jù)稀缺。他們推測,當(dāng)前模型的訓(xùn)練數(shù)據(jù)中,缺乏足夠多的“順序決策過程”數(shù)據(jù),即人類調(diào)試痕跡的數(shù)據(jù)。A2h28資訊網(wǎng)——每日最新資訊28at.com

“我們堅信,訓(xùn)練或微調(diào)這些模型可以使它們成為更好的交互式調(diào)試器。”共同作者們在研究報告中寫道,“然而,這需要專門的數(shù)據(jù)來滿足此類模型訓(xùn)練的需求,例如記錄智能體與調(diào)試器交互以收集必要信息、隨后提出漏洞修復(fù)建議的軌跡數(shù)據(jù)。”A2h28資訊網(wǎng)——每日最新資訊28at.com

這一發(fā)現(xiàn)其實并不令人意外。許多研究都表明,代碼生成型 AI 往往會引入安全漏洞和錯誤,這是由于它們在理解編程邏輯等領(lǐng)域的薄弱環(huán)節(jié)所導(dǎo)致的。最近對一款流行的 AI 編程工具 Devin 的評估發(fā)現(xiàn),它只能完成 20 項編程測試中的 3 項。A2h28資訊網(wǎng)——每日最新資訊28at.com

不過,微軟的這項研究是迄今為止對模型在這一持續(xù)存在問題領(lǐng)域最為詳細的剖析之一。盡管它可能不會削弱投資者對 AI 輔助編程工具的熱情,但愿它能讓開發(fā)者及其上級領(lǐng)導(dǎo)三思而后行,不再輕易將編程工作完全交給 AI 來主導(dǎo)。A2h28資訊網(wǎng)——每日最新資訊28at.com

注意到,越來越多的科技界領(lǐng)袖對 AI 會取代編程工作的觀點提出了質(zhì)疑。微軟聯(lián)合創(chuàng)始人比爾?蓋茨曾表示,他認為編程作為一種職業(yè)將會長期存在。與他持相同觀點的還有 Replit 首席執(zhí)行官阿姆賈德?馬薩德、 Okta 首席執(zhí)行官托德?麥金農(nóng)以及 IBM 首席執(zhí)行官阿爾溫德?克里希納。A2h28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12239-0.html微軟研究:AI 編程助手軟件調(diào)試能力堪憂

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 美國教育部長出席峰會鬧烏龍:多次將 AI 誤稱為 A1

下一篇: AI 購物應(yīng)用 Nate 創(chuàng)始人被控欺詐:人工冒充 AI 騙取 5000 萬美元投資

標(biāo)簽:
  • 熱門焦點
  • 文心一言排名墊底,卻成為百度業(yè)績增長杠桿

    文/侯煜編輯/羅卿知識增強大預(yù)言模式文心一言發(fā)布后,百度公司熱度大幅提升,文心一言到底能為百度的業(yè)績帶來多大的增益成為業(yè)內(nèi)關(guān)注焦點。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 25萬虛擬er在“元宇宙”追星

    “默嘰默嘰,我是默默醬,我是在真元宇宙也有頭有臉的人。”12月11日晚20:00,虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬,抵達繁星》在大有空間APP
  • 字節(jié)跳動,剛剛投了一位虛擬女生

    今年第一筆虛擬人融資出爐了。投資界獲悉,杭州李未可科技有限公司顯示發(fā)生股東變更,新增字節(jié)跳動關(guān)聯(lián)公司北京量子躍動科技有限公司。今天公司方面正式確認,本輪
  • 元宇宙風(fēng)口下,視覺中國如何重估?

    要說橫跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一個。不僅互聯(lián)網(wǎng)巨頭們紛紛布局,上市公司們趨之若鶩,還被不少地方政府寫入了產(chǎn)業(yè)規(guī)劃,大有在2022年
  • 冰墩墩的NFT暴漲千倍?真相則是價格暴跌、成交遇冷

    《區(qū)塊鏈日報》記者查證,近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑,而所謂的暴漲千倍更是有價無市的自嗨。昨日,北京冬奧會正式閉幕。在這屆冬奧會上,吉祥物“冰
  • 從冰墩墩到無聊猿,解秘未來IP爆款的模因

    打造IP,是建設(shè)元宇宙的剛需。NFT能直接讓IP的價值變現(xiàn);虛擬人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一個個品牌IP星球,考驗的是IP世界觀的建設(shè)能力。如果說在
  • 解決NFT流動性問題:一文了解Floor DAO

    流動性是證券市場上的一個術(shù)語,流動性是指資產(chǎn)在不影響其市場價格的情況下可以轉(zhuǎn)換為現(xiàn)成現(xiàn)金的效率,流動性最強的資產(chǎn)是現(xiàn)金本身。現(xiàn)在讓我們試著從流動性的角
  • 參加元宇宙里的招聘會是什么樣一種體驗?

    求職者可以在活動中走動,就像他們在現(xiàn)實生活中一樣。長話短說看亮點:招聘公司Hirect為Y-combinator支持的初創(chuàng)公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
  • 就業(yè)年齡歧視如何解決?來Web3看看

    上周,我突然想到我的第一份工作實際上是在為一家失敗的航空公司制定破產(chǎn)退出計劃,那年我們的協(xié)議實習(xí)生剛出生。在一陣恐慌后,我又花了一點時間反思我這個擁有近1
Top 主站蜘蛛池模板: 仙游县| 都江堰市| 乐陵市| 吴桥县| 溧阳市| 恭城| 临沭县| 元谋县| 乃东县| 互助| 嘉义县| 沅陵县| 靖安县| 舟曲县| 金堂县| 辽阳市| 错那县| 绥中县| 乌拉特中旗| 中牟县| 泗水县| 弥渡县| 黄龙县| 互助| 中卫市| 镇坪县| 玉溪市| 兰西县| 奉化市| 宁城县| 浦城县| 鄂托克前旗| 库尔勒市| 武安市| 宁安市| 年辖:市辖区| 郎溪县| 潞城市| 瓦房店市| 华阴市| 石首市|