李開復回應“零一萬物開源Yi大模型抄襲LLaMA”質(zhì)疑

來源：責編：時間：2023-11-15 17:17:15 327觀看

導讀 11月15日消息，近日，創(chuàng)新工場董事長兼 CEO 李開復創(chuàng)辦的AI大模型創(chuàng)業(yè)公司“零一萬物”推出 Yi-34B 和 Yi-6B 兩大開源大模型。然而在 Yi-34B 的 Hugging Face 開源主頁上，有開發(fā)者質(zhì)疑該模型使用

11月15日消息，近日，創(chuàng)新工場董事長兼 CEO 李開復創(chuàng)辦的AI大模型創(chuàng)業(yè)公司“零一萬物”推出 Yi-34B 和 Yi-6B 兩大開源大模型。

然而在 Yi-34B 的 Hugging Face 開源主頁上，有開發(fā)者質(zhì)疑該模型使用了 Meta LLaMA 的架構(gòu)，只對兩個張量（Tensor）名稱進行了修改等等。

對此，零一萬物正式公開了對 Yi-34B 訓練過程的說明。李開復也轉(zhuǎn)發(fā)了該說明，并表示：“零一萬物 Yi-34B 模型訓練的說明也回應這兩天大家對于模型架構(gòu)的探討。全球大模型架構(gòu)一路從 GPT2 --> Gopher --> Chinchilla --> Llama2-> Yi，行業(yè)逐漸形成大模型的通用標準 (就像做一個手機app開發(fā)者不會去自創(chuàng) iOS、Android 以外的全新基礎(chǔ)架構(gòu))。01.AI 起步受益于開源，也貢獻開源，從社區(qū)中虛心學習，我們會持續(xù)進步”。

以下為：零一萬物對 Yi-34B 訓練過程的說明

就零一萬物的觀察和分析，大模型社區(qū)在技術(shù)架構(gòu)方面現(xiàn)在是一個處于接近往通用化逐步收攏的階段，基本上國際主流大模型都是基于Transformer的架構(gòu)，做attention，activation，normalization，positional embedding等部分的改動，LLaMA、Chinchilla、Gopher 等模型的架構(gòu)和 GPT 架構(gòu)大同小異，全球開源社區(qū)基于主流架構(gòu)的模型變化非常之多，生態(tài)呈現(xiàn)欣欣向榮，國內(nèi)已發(fā)布的開源模型也絕大多數(shù)采用漸成行業(yè)標準的 GPT/LLaMA 的架構(gòu)。然而，大模型持續(xù)發(fā)展與尋求突破口的核心點不僅在于架構(gòu)，而是在于訓練得到的參數(shù)。

模型訓練過程好比做一道菜，架構(gòu)只是決定了做菜的原材料和大致步驟，這在大多數(shù)人的認知中也逐步形成共識。要訓練出好的模型，還需要更好的“原材料”（數(shù)據(jù)）和對每一個步驟細節(jié)的把控（訓練方法和具體參數(shù)）。由于大模型技術(shù)發(fā)展還在非常初期，從技術(shù)觀點來說，行業(yè)共識是與主流模型保持一致的模型結(jié)構(gòu)，更有利于整體的適配與未來的迭代。

零一萬物在訓練模型過程中，沿用了GPT/LLaMA的基本架構(gòu)，由于LLaMA社區(qū)的開源貢獻，讓零一萬物可以快速起步。零一萬物從零開始訓練了 Yi-34B 和 Yi-6B 模型，并根據(jù)實際的訓練框架重新實現(xiàn)了訓練代碼，用自建的數(shù)據(jù)管線構(gòu)建了高質(zhì)量配比的訓練數(shù)據(jù)集（從3PB原始數(shù)據(jù)精選到3T token高質(zhì)量數(shù)據(jù)）。除此以外，在 Infra 部分進行算法、硬件、軟件聯(lián)合端到端優(yōu)化，實現(xiàn)訓練效率倍級提升和極強的容錯能力等原創(chuàng)性突破。這些科學訓模的系統(tǒng)性工作，往往比起基本模型結(jié)構(gòu)能起到巨大的作用跟價值。

零一萬物團隊在訓練前的實驗中，嘗試了不同的數(shù)據(jù)配比科學地選取了最優(yōu)的數(shù)據(jù)配比方案，投注大部分精力調(diào)整訓練方法、數(shù)據(jù)配比、數(shù)據(jù)工程、細節(jié)參數(shù)、baby sitting（訓練過程監(jiān)測）技巧等。這一系列超越模型架構(gòu)之外，研究與工程并進且具有前沿突破性的研發(fā)任務，才是真正屬于模型訓練內(nèi)核最為關(guān)鍵、能夠形成大模型技術(shù)護城河 know-how積累。在模型訓練同時，零一萬物也針對模型結(jié)構(gòu)中的若干關(guān)鍵節(jié)點進行了大量的實驗和對比驗證。舉例來說，我們實驗了Group Query Attention（GQA）、Multi-Head Attention（MHA）、Vanilla Attention 并選擇了GQA，實驗了Pre-Norm和Post-Norm在不同網(wǎng)絡(luò)寬度和深度上的變化，并選擇了Pre-Norm，使用了 RoPE ABF作為positional embedding等。也正是在這些實驗與探索過程中，為了執(zhí)行對比實驗的需要，模型對部分推理參數(shù)進行了重新命名。

在零一萬物初次開源過程中，我們發(fā)現(xiàn)用和開源社區(qū)普遍使用的LLaMA 架構(gòu)會對開發(fā)者更為友好，對于沿用LLaMA部分推理代碼經(jīng)實驗更名后的疏忽，原始出發(fā)點是為了充分測試模型，并非刻意隱瞞來源。零一萬物對此提出說明，并表達誠摯的歉意，我們正在各開源平臺重新提交模型及代碼并補充LLaMA 協(xié)議副本的流程中，承諾盡速完成各開源社區(qū)的版本更新。

我們非常感謝社區(qū)的反饋，零一萬物在開源社區(qū)剛剛起步，希望和大家攜手共創(chuàng)社區(qū)繁榮，在近期發(fā)布Chat Model之后，我們將擇期發(fā)布技術(shù)報告，Yi Open-source會盡最大努力虛心學習，持續(xù)進步。

本文鏈接：http://www.www897cc.com/showinfo-21-25958-0.html李開復回應“零一萬物開源Yi大模型抄襲LLaMA”質(zhì)疑

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：李開復旗下AI公司“零一萬物”開源Yi大模型被指抄襲LLaMA

下一篇：抖音生活服務換帥由抖音集團商業(yè)化負責人浦燕子兼任

標簽：

熱門焦點

0糖0卡0脂旭日森林仙草烏龍茶優(yōu)惠：15瓶到手29元

旭日森林無糖仙草烏龍茶510ml*15瓶平時要賣為79.9元，今日下單領(lǐng)取50元優(yōu)惠券，到手價為29.9元。產(chǎn)品規(guī)格：0糖0卡0脂，添加草本仙草汁，清涼爽口，富含茶多酚，保留
服務存儲設(shè)計模式：Cache-Aside模式

Cache-Aside模式一種常用的緩存方式，通常是把數(shù)據(jù)從主存儲加載到KV緩存中，加速后續(xù)的訪問。在存在重復度的場景，Cache-Aside可以提升服務性能，降低底層存儲的壓力，缺點是緩存和底
一篇文章帶你了解 CSS 屬性選擇器

屬性選擇器對帶有指定屬性的 HTML 元素設(shè)置樣式。可以為擁有指定屬性的 HTML 元素設(shè)置樣式，而不僅限于 class 和 id 屬性。一、了解屬性選擇器CSS屬性選擇器提供了一種簡單而
小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

作者：黃河懂運營一條性教育視頻，被54萬人“珍藏”是什么體驗？最近，情感博主@公主是用鮮花做的，火了！僅僅憑借一條視頻，光小紅書就有超過128萬人，為她瘋狂點贊！更瘋狂的是，這
破圈是B站頭上的緊箍咒

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集，2021年有優(yōu)酷的《山河令》，2022年有愛奇藝的《蒼蘭訣》，今年卻輪到小破站抓住了追
蘋果公司要求三星和LG Display生產(chǎn)「無邊框」OLED iPhone顯示屏

據(jù) The Elec 報道，蘋果已要求其供應商為未來的 iPhone 型號開發(fā)「無邊框」OLED 顯示面板。蘋果顯然已要求三星和 LG Display 開發(fā)新的 OLED 顯示面
2299元起！iQOO Pad開啟預售：性能最強天璣平板

5月23日，iQOO如期舉行了新品發(fā)布會，除了首發(fā)安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發(fā)布會上推出了旗下首款平板電腦——iQOO Pad，其搭載了天璣
機構(gòu)稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

7月20日消息，據(jù)外媒報道，研究機構(gòu)的報告顯示，由于需求下滑，今年二季度全球智能手機的出貨量，同比下滑了11%，三星、蘋果等主要廠商的銷量，較去年同期均有下
與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

聯(lián)想與兆芯合作推出全新聯(lián)想旗艦版筆記本電腦開天 N7系列。這個系列采用兆芯KX-6640MA處理器平臺，KX-6640MA 處理器是采用了陸家嘴架構(gòu)，16nm 工藝，4 核 4 線

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

李開復回應“零一萬物開源Yi大模型抄襲LLaMA”質(zhì)疑

0糖0卡0脂旭日森林仙草烏龍茶優(yōu)惠：15瓶到手29元

服務存儲設(shè)計模式：Cache-Aside模式

一篇文章帶你了解 CSS 屬性選擇器

小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

破圈是B站頭上的緊箍咒

蘋果公司要求三星和LG Display生產(chǎn)「無邊框」OLED iPhone顯示屏

2299元起！iQOO Pad開啟預售：性能最強天璣平板

機構(gòu)稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊