日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

大模型“自動修 bug”能力將提升,豆包團隊開源首個多語言代碼修復基準 Multi-SWE-bench

來源: 責編: 時間:2025-04-13 08:41:48 72觀看
導讀 4 月 10 日消息,豆包大模型團隊今日通過官方公眾號宣布,首個多語言類 SWE 數據集 Multi-SWE-bench 現已正式開源,可用于評估和提升大模型“自動修 Bug”能力。在 SWE-bench 基礎上,Multi-SWE-bench 首次覆蓋 Pyth

4 月 10 日消息,豆包大模型團隊今日通過官方公眾號宣布,首個多語言類 SWE 數據集 Multi-SWE-bench 現已正式開源,可用于評估和提升大模型“自動修 Bug”能力。xVk28資訊網——每日最新資訊28at.com

在 SWE-bench 基礎上,Multi-SWE-bench 首次覆蓋 Python 之外的 7 種主流編程語言,是真正面向“全棧工程”的評測基準。其數據均來自 GitHub issue,歷時近一年構建,以盡可能準確測評和提高大模型高階編程智能水平。xVk28資訊網——每日最新資訊28at.com

xVk28資訊網——每日最新資訊28at.com

Multi-SWE-bench 旨在推動自動編程技術從僅能解決單一語言(如 Python)和低復雜度的任務,朝著支持多語言、具備真實問題解決能力的通用型智能體邁進。xVk28資訊網——每日最新資訊28at.com

SWE-bench 是當前最具代表性的代碼修復評測基準,強調任務真實、難度高。它基于 GitHub issue,要求模型自動定位并修復 Bug,兼具跨文件修改、復雜語義推理與上下文理解等挑戰。xVk28資訊網——每日最新資訊28at.com

Multi-SWE-bench 旨在補全現有同類基準語言覆蓋方面的不足,系統性評估大模型在復雜開發環境下的“多語言泛化能力”,推動多語言軟件開發 Agent 的評估與研究,其主要特性如下:xVk28資訊網——每日最新資訊28at.com

首次覆蓋 7 種主流編程語言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),構建多語言開發環境下的代碼修復任務,系統評估模型的跨語言適應與泛化能力;xVk28資訊網——每日最新資訊28at.com

引入任務難度分級機制,將問題劃分為簡單(Easy)、中等(Medium)和困難(Hard)三類,涵蓋從一行修改到多文件、多步驟、多語義依賴的開發挑戰;xVk28資訊網——每日最新資訊28at.com

1,632 個實例全部來源于真實開源倉庫,并經過統一的測試標準和專業開發者的審核篩選,確保每個樣本具備清晰的問題描述、正確的修復補丁以及可復現的運行測試環境。xVk28資訊網——每日最新資訊28at.com

xVk28資訊網——每日最新資訊28at.com

附開源鏈接:xVk28資訊網——每日最新資訊28at.com

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:xVk28資訊網——每日最新資訊28at.com

論文鏈接:https://arxiv.org/ abs / 2504.02605xVk28資訊網——每日最新資訊28at.com

榜單鏈接:https://multi-swe-bench.github.ioxVk28資訊網——每日最新資訊28at.com

代碼鏈接:https://github.com/ multi-swe-bench / multi-swe-benchxVk28資訊網——每日最新資訊28at.com

數據鏈接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-benchxVk28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12213-0.html大模型“自動修 bug”能力將提升,豆包團隊開源首個多語言代碼修復基準 Multi-SWE-bench

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 優音通信雙獎加冕,智能通信創新引領行業未來!

下一篇: 谷歌 Veo 2 升級可生成更具電影感視頻,文本、音頻 AI 同步升級

標簽:
  • 熱門焦點
  • 元媧2.7上線:虛擬人視頻制作速度瘋狂翻倍!

    來源:清元宇宙 炎炎夏日努力工作的Q仔的電腦都冒煙兒啦~今天要給大家介紹兩個新小伙伴——小元和小媧,他們將給大家解讀元媧2.7版本重磅更新內容~大家掌聲歡迎~~~本次更
  • 大廠元宇宙,又菜又愛玩

    撰文 | 吳先之 編輯 | 王 潘當下所有大廠推出的元宇宙產品,所能帶來的沉浸式體驗并不多,好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設
  • 字節跳動,剛剛投了一位虛擬女生

    今年第一筆虛擬人融資出爐了。投資界獲悉,杭州李未可科技有限公司顯示發生股東變更,新增字節跳動關聯公司北京量子躍動科技有限公司。今天公司方面正式確認,本輪
  • 2022 區塊鏈 50 強榜單;垃圾NFT項目的十三個特性

    本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款;騰訊發行齊白石畫作數字藏品;Ripple成為數字歐元協會成員;Gem上線稀有度排名功能;2022 區塊鏈 50 強榜
  • 冰墩墩還能火多久?

    作者:田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰,冰墩墩當仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推,以及日
  • 影響元宇宙土地價格的五個因素

    參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數,以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
  • 紐約街頭出現NFT自動販賣機

    一家初創公司宣布在紐約市開放一臺NFT自動售貨機,允許任何人——即使是沒有加密資產的人也能購買NFT。該交易平臺名為Neon,上個月完成了一輪300萬美元的種子募捐
  • NFT 技術將傳世之作帶入博物館

    意大利四大博物館已與一個項目合作,該項目將展示和銷售達芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復制品。該計劃采用了 科技公司Cincello的國際專
  • 元宇宙+劇本殺:“在異世界里當演員”

    你玩過劇本殺嗎?體驗過“元宇宙+劇本殺”嗎?2月,恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造,通過VR技術塑造了與
Top 主站蜘蛛池模板: 金山区| 封开县| 庐江县| 两当县| 徐汇区| 三台县| 宁国市| 开化县| 海原县| 右玉县| 平武县| 泗洪县| 疏勒县| 凤山县| 化隆| 临邑县| 盐津县| 屏南县| 仁布县| 晋城| 廉江市| 寻甸| 巍山| 玉门市| 墨竹工卡县| 沂源县| 四会市| 定襄县| 汽车| 上蔡县| 苏尼特左旗| 宜黄县| 兰西县| 克拉玛依市| 太仓市| 望谟县| 盐城市| 富宁县| 新建县| 财经| 监利县|