9 月 18 日消息,今日上午,在昆明召開的 2025 年國家網絡安全宣傳周人工智能安全治理分論壇上,中文互聯網基礎語料 3.0 正式向社會發布。

在中央網信辦相關部門指導下,中國網絡空間安全協會會同國家互聯網應急中心等單位,在前期發布中文互聯網基礎語料 1.0 和 2.0 的基礎上,持續發揮企業、高校和科研單位協同優勢,依托網安協會人工智能安全治理專委會建立的語料共建共享機制,匯聚一批新的高質量可信數據,經過信源篩選、內容過濾、數據去重等一系列嚴格細致的數據加工處理措施,形成并對社會發布中文互聯網基礎語料 3.0。本批語料擴大了優質中文網站信源范圍,加強了違法不良信息過濾,數據量為 120GB,可為大模型訓練和人工智能發展提供可信數據支持。用戶登錄中國網絡空間安全協會網站(https://www.cybersac.cn/newhome),點擊“中文互聯網語料資源平臺”鏈接,通過注冊、認證等程序,即可下載相關語料。
網安協會負責人表示,中文互聯網基礎語料 3.0 是各界協同共建高質量中文語料的又一重要成果,進一步豐富了高質量中文語料的供給。下一步,網安協會將會同國家互聯網應急中心等單位,協同各行業領域,持續加強中文互聯網基礎語料建設,為人工智能技術創新和產業發展提供有力支撐和保障。
本文鏈接:http://www.www897cc.com/showinfo-45-27861-0.html中文互聯網基礎語料 3.0 發布:數據量為 120GB,助力大模型訓練與 AI 發展
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com