日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

微軟研究:AI 編程助手軟件調(diào)試能力堪憂

來源: 責(zé)編: 時(shí)間:2025-04-15 07:12:31 83觀看
導(dǎo)讀 4 月 13 日消息,OpenAI、Anthropic 和其他頂尖人工智能實(shí)驗(yàn)室的人工智能模型越來越多地被用于協(xié)助編程任務(wù),谷歌首席執(zhí)行官桑達(dá)爾?皮查伊在去年 10 月透露,該公司 25% 的新代碼由 AI 生成;而 Meta 首席執(zhí)行官馬

4 月 13 日消息,OpenAI、Anthropic 和其他頂尖人工智能實(shí)驗(yàn)室的人工智能模型越來越多地被用于協(xié)助編程任務(wù),谷歌首席執(zhí)行官桑達(dá)爾?皮查伊在去年 10 月透露,該公司 25% 的新代碼由 AI 生成;而 Meta 首席執(zhí)行官馬克?扎克伯格也表達(dá)了在公司內(nèi)部廣泛部署 AI 編碼模型的雄心壯志。zM528資訊網(wǎng)——每日最新資訊28at.com

然而,即便是一些目前最先進(jìn)的 AI 模型,在解決軟件漏洞這一問題上,仍然無法與經(jīng)驗(yàn)豐富的開發(fā)者相媲美。微軟研究院(微軟的研發(fā)部門)的一項(xiàng)新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在內(nèi)的多款模型,在一個(gè)名為 SWE-bench Lite 的軟件開發(fā)基準(zhǔn)測試中,無法成功調(diào)試許多問題。zM528資訊網(wǎng)——每日最新資訊28at.com

研究的共同作者們測試了九種不同的模型,這些模型作為“基于單個(gè)提示詞的智能體”的核心,能夠使用包括 Python 調(diào)試器在內(nèi)的一系列調(diào)試工具。他們給這個(gè)智能體分配了一組經(jīng)過篩選的 300 項(xiàng)軟件調(diào)試任務(wù),這些任務(wù)均來自 SWE-bench Lite。zM528資訊網(wǎng)——每日最新資訊28at.com

據(jù)共同作者們介紹,即使配備了更強(qiáng)大、更先進(jìn)的模型,他們的智能體成功完成的調(diào)試任務(wù)也極少超過一半。其中,Claude 3.7 Sonnet 的平均成功率最高,為 48.4%;其次是 OpenAI 的 o1,成功率為 30.2%;而 o3-mini 的成功率為 22.1%。zM528資訊網(wǎng)——每日最新資訊28at.com

zM528資訊網(wǎng)——每日最新資訊28at.com

為何這些 AI 模型的表現(xiàn)如此不盡如人意?部分模型在使用可用的調(diào)試工具以及理解不同工具如何幫助解決不同問題方面存在困難。然而,共同作者們認(rèn)為,更大的問題在于數(shù)據(jù)稀缺。他們推測,當(dāng)前模型的訓(xùn)練數(shù)據(jù)中,缺乏足夠多的“順序決策過程”數(shù)據(jù),即人類調(diào)試痕跡的數(shù)據(jù)。zM528資訊網(wǎng)——每日最新資訊28at.com

“我們堅(jiān)信,訓(xùn)練或微調(diào)這些模型可以使它們成為更好的交互式調(diào)試器。”共同作者們在研究報(bào)告中寫道,“然而,這需要專門的數(shù)據(jù)來滿足此類模型訓(xùn)練的需求,例如記錄智能體與調(diào)試器交互以收集必要信息、隨后提出漏洞修復(fù)建議的軌跡數(shù)據(jù)。”zM528資訊網(wǎng)——每日最新資訊28at.com

這一發(fā)現(xiàn)其實(shí)并不令人意外。許多研究都表明,代碼生成型 AI 往往會(huì)引入安全漏洞和錯(cuò)誤,這是由于它們在理解編程邏輯等領(lǐng)域的薄弱環(huán)節(jié)所導(dǎo)致的。最近對一款流行的 AI 編程工具 Devin 的評(píng)估發(fā)現(xiàn),它只能完成 20 項(xiàng)編程測試中的 3 項(xiàng)。zM528資訊網(wǎng)——每日最新資訊28at.com

不過,微軟的這項(xiàng)研究是迄今為止對模型在這一持續(xù)存在問題領(lǐng)域最為詳細(xì)的剖析之一。盡管它可能不會(huì)削弱投資者對 AI 輔助編程工具的熱情,但愿它能讓開發(fā)者及其上級(jí)領(lǐng)導(dǎo)三思而后行,不再輕易將編程工作完全交給 AI 來主導(dǎo)。zM528資訊網(wǎng)——每日最新資訊28at.com

注意到,越來越多的科技界領(lǐng)袖對 AI 會(huì)取代編程工作的觀點(diǎn)提出了質(zhì)疑。微軟聯(lián)合創(chuàng)始人比爾?蓋茨曾表示,他認(rèn)為編程作為一種職業(yè)將會(huì)長期存在。與他持相同觀點(diǎn)的還有 Replit 首席執(zhí)行官阿姆賈德?馬薩德、 Okta 首席執(zhí)行官托德?麥金農(nóng)以及 IBM 首席執(zhí)行官阿爾溫德?克里希納。zM528資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12239-0.html微軟研究:AI 編程助手軟件調(diào)試能力堪憂

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 美國教育部長出席峰會(huì)鬧烏龍:多次將 AI 誤稱為 A1

下一篇: AI 購物應(yīng)用 Nate 創(chuàng)始人被控欺詐:人工冒充 AI 騙取 5000 萬美元投資

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 兰考县| 凤山县| 温州市| 保定市| 四平市| 林甸县| 宜阳县| 壶关县| 岳阳市| 富裕县| 福泉市| 北海市| 石河子市| 如皋市| 昭觉县| 永和县| 咸丰县| 堆龙德庆县| 富宁县| 金平| 莱州市| 梓潼县| 陇西县| 琼结县| 乌海市| 于田县| 巴马| 贵州省| 崇州市| 玉山县| 江都市| 九江县| 霸州市| 宁河县| 襄樊市| 商南县| 仪征市| 建始县| 宕昌县| 琼中| 柳林县|