日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

大模型“自動修 bug”能力將提升,豆包團隊開源首個多語言代碼修復基準 Multi-SWE-bench

來源: 責編: 時間:2025-04-13 08:41:48 45觀看
導讀 4 月 10 日消息,豆包大模型團隊今日通過官方公眾號宣布,首個多語言類 SWE 數據集 Multi-SWE-bench 現已正式開源,可用于評估和提升大模型“自動修 Bug”能力。在 SWE-bench 基礎上,Multi-SWE-bench 首次覆蓋 Pyth

4 月 10 日消息,豆包大模型團隊今日通過官方公眾號宣布,首個多語言類 SWE 數據集 Multi-SWE-bench 現已正式開源,可用于評估和提升大模型“自動修 Bug”能力。rUX28資訊網——每日最新資訊28at.com

在 SWE-bench 基礎上,Multi-SWE-bench 首次覆蓋 Python 之外的 7 種主流編程語言,是真正面向“全棧工程”的評測基準。其數據均來自 GitHub issue,歷時近一年構建,以盡可能準確測評和提高大模型高階編程智能水平。rUX28資訊網——每日最新資訊28at.com

rUX28資訊網——每日最新資訊28at.com

Multi-SWE-bench 旨在推動自動編程技術從僅能解決單一語言(如 Python)和低復雜度的任務,朝著支持多語言、具備真實問題解決能力的通用型智能體邁進。rUX28資訊網——每日最新資訊28at.com

SWE-bench 是當前最具代表性的代碼修復評測基準,強調任務真實、難度高。它基于 GitHub issue,要求模型自動定位并修復 Bug,兼具跨文件修改、復雜語義推理與上下文理解等挑戰。rUX28資訊網——每日最新資訊28at.com

Multi-SWE-bench 旨在補全現有同類基準語言覆蓋方面的不足,系統性評估大模型在復雜開發環境下的“多語言泛化能力”,推動多語言軟件開發 Agent 的評估與研究,其主要特性如下:rUX28資訊網——每日最新資訊28at.com

首次覆蓋 7 種主流編程語言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),構建多語言開發環境下的代碼修復任務,系統評估模型的跨語言適應與泛化能力;rUX28資訊網——每日最新資訊28at.com

引入任務難度分級機制,將問題劃分為簡單(Easy)、中等(Medium)和困難(Hard)三類,涵蓋從一行修改到多文件、多步驟、多語義依賴的開發挑戰;rUX28資訊網——每日最新資訊28at.com

1,632 個實例全部來源于真實開源倉庫,并經過統一的測試標準和專業開發者的審核篩選,確保每個樣本具備清晰的問題描述、正確的修復補丁以及可復現的運行測試環境。rUX28資訊網——每日最新資訊28at.com

rUX28資訊網——每日最新資訊28at.com

附開源鏈接:rUX28資訊網——每日最新資訊28at.com

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:rUX28資訊網——每日最新資訊28at.com

論文鏈接:https://arxiv.org/ abs / 2504.02605rUX28資訊網——每日最新資訊28at.com

榜單鏈接:https://multi-swe-bench.github.iorUX28資訊網——每日最新資訊28at.com

代碼鏈接:https://github.com/ multi-swe-bench / multi-swe-benchrUX28資訊網——每日最新資訊28at.com

數據鏈接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-benchrUX28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12213-0.html大模型“自動修 bug”能力將提升,豆包團隊開源首個多語言代碼修復基準 Multi-SWE-bench

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 優音通信雙獎加冕,智能通信創新引領行業未來!

下一篇: 谷歌 Veo 2 升級可生成更具電影感視頻,文本、音頻 AI 同步升級

標簽:
  • 熱門焦點
  • 內容行業大變天,爆款全靠AI?

    出品 | 微果醬(wjam123456)作者 | 陳出木題圖 | 文心一格 AI的發展之快出乎所有人的預料,似乎一夜之間便呼嘯而來。無論是資本的風向標,抑或是生活工作的輔助、流量口,還是茶余飯
  • 聚焦虛擬數字人技術,這三大商機要抓住!

    關于虛擬數字人,企業可以從三個方面入局,分別是ToG(To Government,面向政府),即為數字政府和數字城市提供支持服務;ToB(To Business,面向企業),即為企業提供虛擬員工解決方案;ToC(To Cons
  • 餐桌上怎么變出元宇宙?

    作者:星影“元宇宙讓餐飲業脫胎換骨。”實體的餐飲與虛擬的元宇宙,看起來風馬牛不相及,但最近全世界的餐飲企業都掀起了一股注冊元宇宙商標的熱潮。2月初,全球最大
  • 紐約街頭出現NFT自動販賣機

    一家初創公司宣布在紐約市開放一臺NFT自動售貨機,允許任何人——即使是沒有加密資產的人也能購買NFT。該交易平臺名為Neon,上個月完成了一輪300萬美元的種子募捐
  • 借VR產業東風,江西搶灘布局“元宇宙”

    自2016年起就在VR上傾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口,使人們可以在數字空間和物理空間自由穿梭。自2016年起
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗幣殺手」成名的Shiba Inu(SHIB)在人們的印象中始終有著濃厚的Meme(模因惡搞)烙印,但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區后,Shiba Inu
  • 下一個黃金賽道?NFT的碎片化!

    碎片化可能是我們一生中最重要的一個投資趨勢,碎片化本身并不新鮮。它已經存在了400年之久。早在1602年,荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
  • Meta 在衰落嗎?

    扎克伯格已經很久沒有出現在公眾視野里了,近日,他罕見的接受播客采訪,在兩個小時的時間里暢談了Meta、Facebook、Instagram、元宇宙的未來。正方觀點:是的阿倫·達
  • 售出6930萬美元的NFT已經過去一年,NFT如今是否已成為主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件藝術品被著名拍賣行佳士得以6930萬美元的高價售出。而讓人們感到震驚的是,這個拍賣作品不是出自哪位藝術大
Top 主站蜘蛛池模板: 清丰县| 邢台县| 哈巴河县| 新源县| 紫金县| 毕节市| 英德市| 太谷县| 独山县| 兰溪市| 洪洞县| 南江县| 天祝| 张家口市| 开封县| 合阳县| 鸡西市| 永德县| 西宁市| 连江县| 曲麻莱县| 镇沅| 雅安市| 信阳市| 武隆县| 六枝特区| 晋宁县| 广安市| 建德市| 灵寿县| 精河县| 浦县| 沭阳县| 中江县| 万宁市| 且末县| 涡阳县| 尖扎县| 柳河县| 阳江市| 武冈市|