快科技10月30日消息,今天,昆侖萬維官方宣布,開源百億級大語言模型“天工”Skywork-13B系列,并罕見地配套開源了600GB、150B Tokens的超大高質量開源中文數據集。
根據官方介紹,昆侖萬維“天工”Skywork-13B系列包括Skywork-13B-Base、Skywork-13B-Math兩大模型及150B Tokens高質量中文數據集。
其中Skywork-13B-Base模型是Skywork-13B的基礎模型,其經由3.2萬億個多語言高質量數據訓練,在CEVAL, CMMLU, MMLU, GSM8K等評測與基準測試上都展現了同等規模模型的佳效果。
Skywork-13B-Math模型經過專門的數學能力強化訓練,在GSM8K等數據集上取得了同等規模模型的佳效果。
本次開源的數據集大小約為600GB,總token數量約為150B,是目前開源大的高質量中文數據集之一。
此外,昆侖萬維還公開了模型中使用的評估方法、數據配比研究和訓練基礎設施調優方案等,助力對于大型模型預訓練的認知,推動人工智能通用智能的實現。
目前開源社區中的中文大模型多數并非是完全可商用,通常需要進行復雜的商用授權申請流程,甚至設定限制不給予商業授權。
此次Skywork-13B系列大模型將全面開放商用許可,無需再次申請授權即可將大模型進行商業用途,幫助更多對中文大模型感興趣的用戶和企業在行業中不斷探索和進步。
附Skywork-13B下載地址:
https://modelscope.cn/organization/skywork
https://github.com/SkyworkAI/Skywork
本文鏈接:http://www.www897cc.com/showinfo-17-15824-0.html昆侖萬維宣布開源百億級大語言模型“天工”:0門檻商用
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com