最近,字節(jié)跳動被曝調(diào)用 OpenAI API 接口訓(xùn)練大模型的爭議,以及谷歌大模型 Gemini 被曝使用百度文心一言進(jìn)行中文語料訓(xùn)練等事件,在行業(yè)里引發(fā)了不小的關(guān)注和討論。
不明真相的網(wǎng)友們一邊熱情吃瓜,一邊也在感嘆 AI 大廠之間互相“薅羊毛”的奇葩操作,屬實(shí)是給大家整不會了。
不過,透過現(xiàn)象看本質(zhì)。倒認(rèn)為,這幾件頗受關(guān)注的事件或許可以成為一個(gè)契機(jī),引導(dǎo)行業(yè)走向 AI 大模型訓(xùn)練過程中數(shù)據(jù)使用版權(quán)走向規(guī)范化的道路上。
AI 領(lǐng)域數(shù)據(jù)版權(quán)問題是行業(yè)通病前面說的關(guān)于字節(jié)跳動和 OpenAI 之間的“爭議”,目前雙方都做出了回應(yīng)。OpenAI 方面稱需要進(jìn)一步調(diào)查字節(jié)跳動是否存在違規(guī)。而字節(jié)跳動則表示僅在初期探索階段使用 OpenAI 的 API,4 月份的時(shí)候已經(jīng)停止。
而就在外媒報(bào)道字節(jié)與 OpenAI 事件后不久,谷歌的 Gemini 大模型也被曝出中文語料是使用文心一言進(jìn)行訓(xùn)練。
有很多用戶發(fā)現(xiàn),ZAI Poe 平臺上詢問谷歌 Gemini-Pro 大模型 “你是誰”?Gemini-Pro 直接就回答:“我是百度文心大模型”,而接著問它“你的創(chuàng)始人是誰”,他也回答是“李彥宏”。
同時(shí)國內(nèi)媒體“量子位”在 Gemini 官方的開發(fā)環(huán)境入口進(jìn)行測試時(shí),Gemini-Pro 也直接聲稱自己在中文數(shù)據(jù)的訓(xùn)練上使用了百度文心一言。
截至小編發(fā)稿,谷歌方面還沒有針對這件事做出回應(yīng)。
但可以看到,AI 領(lǐng)域數(shù)據(jù)版權(quán)侵權(quán),其實(shí)一直是行業(yè)的共性問題,也是大模型發(fā)展早期很難避免的現(xiàn)象。
比如小編還注意到,今年三月,谷歌就已經(jīng)被曝出旗下 Bard 聊天機(jī)器人通過 ShareGPT 網(wǎng)站捕獲用戶與 ChatGPT 的對話數(shù)據(jù)來訓(xùn)練模型。
除了谷歌,同為科技巨頭的 Meta 最近也陷入大模型訓(xùn)練的數(shù)據(jù)版權(quán)風(fēng)波,根據(jù)路透社的報(bào)道,由喜劇演員 Sarah Silverman、普利策獎得主 Michael Chabon 等著名作家于今年夏天聯(lián)合發(fā)起訴訟,他們指控 Meta 未經(jīng)許可使用他們的書籍作品訓(xùn)練人工智能語言模型 Llama。
Meta 于今年 2 月發(fā)布了其第一版 Llama 大型語言模型,并公布了用于訓(xùn)練的數(shù)據(jù)集列表,其中包括“ThePile”數(shù)據(jù)集的“Books3”部分。根據(jù)訴訟文件,該數(shù)據(jù)集的創(chuàng)建者曾表示,其中包含 196,640 本書籍,Meta 在明知使用其中數(shù)千本盜版書籍訓(xùn)練其 AI 模型存在法律風(fēng)險(xiǎn)的情況下,仍然這么做了。
與之類似的,還有這次事件中的“受害者”O(jiān)penAI,今年 9 月,包括《權(quán)力的游戲》原著作者喬治?馬丁在內(nèi)的 17 位美國著名作家指控 OpenAI 未經(jīng)許可使用他們受版權(quán)保護(hù)的作品,并將這些作品用于訓(xùn)練 ChatGPT 等大模型,還能生成與其作品相似的內(nèi)容。
還有今年 11 月,OpenAI 和微軟又被一群非小說類作品作家對 OpenAI 和微軟提起了訴訟,指控這兩家公司在訓(xùn)練其大型語言模型時(shí),未經(jīng)允許使用了他們的書籍和學(xué)術(shù)期刊,而且沒有給予任何補(bǔ)償。
諸多案例都顯示,在眼下這個(gè) AI 大模型發(fā)展的早期,模型訓(xùn)練過程中的數(shù)據(jù)侵權(quán)問題可以說是行業(yè)的通病,是普遍現(xiàn)象,并且關(guān)于 AI 訓(xùn)練過程中的數(shù)據(jù)使用問題目前還存在較大的爭議性,有待行業(yè)規(guī)范的進(jìn)一步完善。
大模型的“無性繁殖”,究竟是咋回事?我們知道,AI 大模型的基本原理是根據(jù)上文的內(nèi)容輸出下一個(gè)最有可能出現(xiàn)的 token(語素),那么它怎么保證輸出的就是我們想要的呢?答案就是靠訓(xùn)練。
這里我們要先簡單介紹一些大語言模型訓(xùn)練的主要階段:預(yù)訓(xùn)練、有監(jiān)督的精調(diào)和人類的反饋學(xué)習(xí)。
預(yù)訓(xùn)練階段是不需要人工干預(yù)的,只要喂給 AI 足夠多的數(shù)據(jù),AI 就能通過訓(xùn)練獲得強(qiáng)大的通用語言能力。
接下來在有監(jiān)督的精調(diào)這一步,就需要解決讓大模型輸出我們想要的結(jié)果的問題。
比如當(dāng)我們提出“水的沸點(diǎn)是多少度?”這個(gè)問題,AI 可能會覺得有很多類型的回復(fù),比如“我也很想知道”,但對人類來說,最合理的回復(fù)自然是“100 度”。
所以就需要人類引導(dǎo) AI 輸出我們認(rèn)為合理的標(biāo)準(zhǔn)答案,這個(gè)過程中我們會人為地喂給 AI 大量問題的標(biāo)準(zhǔn)答案,來微調(diào)它的模型參數(shù),因此叫監(jiān)督學(xué)習(xí)。類似的情況還有很多,比如我們不希望大模型輸出不符合人類價(jià)值觀的內(nèi)容,所有這些,都需要對模型進(jìn)行精調(diào),換句話說,就是要對我們想要的數(shù)據(jù)進(jìn)行標(biāo)注。
可想而知,數(shù)據(jù)標(biāo)注這件事,是個(gè)非常海量且龐大的工程,需要投入非常多的人力和時(shí)間。在商業(yè)競爭爭分奪秒的環(huán)境下,對后來進(jìn)入大模型領(lǐng)域的企業(yè)來說,獨(dú)自且重復(fù)地去完成這些事,顯然不符合發(fā)展的需求。因此,很多大模型使用 GPT 生成標(biāo)注數(shù)據(jù)其實(shí)已經(jīng)是行業(yè)公開的秘密。
例如之前有些國內(nèi)的 GPT 鏡像站,完全免費(fèi),就是某些公司自己花錢調(diào)用 OpenAI 的接口,然后拿用戶當(dāng)勞力生成訓(xùn)練數(shù)據(jù)。
例如比較知名的開源數(shù)據(jù)集 Alpaca,也是用 GPT4 生成的。這種用 GPT 的標(biāo)注數(shù)據(jù)訓(xùn)練小模型的方法也叫做“蒸餾”。
ChatGPT 爆火之后,不少公司能夠這么快地跟進(jìn)并推出自己的 AI 大模型,其實(shí)主要就是兩個(gè)路徑。
其一是使用 Meta 的開源大型語言模型 Llama 來訓(xùn)練。
其二就是 ChatGPT 里面蒸餾一些數(shù)據(jù),再結(jié)合開源數(shù)據(jù)集和自己爬的數(shù)據(jù),訓(xùn)練自己的大模型。
因此,盡管 OpenAI 在其 API 服務(wù)條款中有給出“不可以用 Output 來開發(fā)與 OpenAI 競爭的模型”這樣的條款,但其實(shí)這一政策一直以來都很有爭議。
支持的人認(rèn)為 OpenAI 為訓(xùn)練模型做了大量前期投入,借助他們的服務(wù)走捷徑是不正確的。而反對的人則認(rèn)為,OpenAI 的前期訓(xùn)練過程吃了 AI 訓(xùn)練早期外部環(huán)境無戒備的紅利,且同樣存在數(shù)據(jù)侵權(quán)的控訴,此后的模型很難獲得同樣量級和規(guī)模的訓(xùn)練數(shù)據(jù),阻止其他企業(yè)調(diào)用其模型違背“Open”的精神。
在此背景下,我們再看字節(jié)跳動的回應(yīng):
今年年初,當(dāng)技術(shù)團(tuán)隊(duì)剛開始進(jìn)行大模型的初期探索時(shí),有部分工程師將 GPT 的 API 服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中。該模型僅為測試,沒有計(jì)劃上線,也從未對外使用。在 4 月公司引入 GPT API 調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止。
早在今年 4 月,字節(jié)大模型團(tuán)隊(duì)已經(jīng)提出了明確的內(nèi)部要求,不得將 GPT 模型生成的數(shù)據(jù)添加到字節(jié)大模型的訓(xùn)練數(shù)據(jù)集,并培訓(xùn)工程師團(tuán)隊(duì)在使用 GPT 時(shí)遵守服務(wù)條款。
9 月,公司內(nèi)部又進(jìn)行了一輪檢查,采取措施進(jìn)一步保證對 GPT 的 API 調(diào)用符合規(guī)范要求。例如分批次抽樣模型訓(xùn)練數(shù)據(jù)與 GPT 的相似度,避免數(shù)據(jù)標(biāo)注人員私自使用 GPT。
未來幾天里,我們會再次全面檢查,以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款。
對于字節(jié)跳動的回應(yīng),小編想提煉兩個(gè)重點(diǎn),其一,字節(jié)跳動只是在探索大模型初期時(shí),有部分工程師將 GPT 的 API 服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中,而實(shí)驗(yàn)性項(xiàng)目并不違反服務(wù)條款。比如微軟也曾利用 OpenAI 的合成數(shù)據(jù)做微調(diào)訓(xùn)練,訓(xùn)練出了一個(gè) 130 億參數(shù)的模型 Orca,還達(dá)到了 chatGPT 3.5 的水平。這個(gè)和字節(jié)跳動一樣,也是實(shí)驗(yàn)和研究的用途,并未將模型對外商用。
其二,就是字節(jié)跳動在回應(yīng)中已經(jīng)明確指出,他們已經(jīng)在內(nèi)部反復(fù)做出規(guī)范和限制,不能使用 GPT 生成數(shù)據(jù)訓(xùn)練模型,其實(shí),這不僅是遵守服務(wù)條款,更是技術(shù)發(fā)展的必要,因?yàn)槿绻恢笔褂?Open AI 的模型輸出,表面上是走捷徑,但實(shí)際上相當(dāng)于是將自己的大模型能力天花板給鎖死了,無論模型本身、訓(xùn)練數(shù)據(jù)還是輸出方式,都只是 GPT 的延續(xù),這一點(diǎn),字節(jié)跳動一定比誰都清楚。
AI 大模型訓(xùn)練中的核心版權(quán)問題亟待規(guī)范和完善其實(shí),任何新興行業(yè)在發(fā)展初期都會存在各種各樣的亂象和不合規(guī)問題,事物的發(fā)展總是一個(gè)過程,而標(biāo)準(zhǔn)和規(guī)范的介入,也往往是在行業(yè)發(fā)展規(guī)律完全呈現(xiàn)后,在一個(gè)合適的契機(jī)下發(fā)生的。
因此,這次字節(jié)跳動和 OpenAI、谷歌 Gemini 和文心一言相繼發(fā)生的事件,小編認(rèn)為,我們與其在爭議中過多糾結(jié)于“對或錯”,更值得關(guān)注的,應(yīng)該是關(guān)于 AI 領(lǐng)域數(shù)據(jù)使用的行業(yè)規(guī)范是否到了進(jìn)一步規(guī)范和完善的時(shí)候?
根據(jù)工業(yè)和信息化部賽迪研究院近日的數(shù)據(jù),今年,我國生成式人工智能市場規(guī)模有望突破 10 萬億元。專家預(yù)測,2035 年生成式人工智能有望為全球貢獻(xiàn)近 90 萬億元的經(jīng)濟(jì)價(jià)值,其中我國將突破 30 萬億元,占比超過四成。
一方面,生成式 AI 的發(fā)展勢頭可謂如火如荼,另一方面,大模型訓(xùn)練的問題處于生成式 AI 生命周期的開始,如果不能從源頭上盡早規(guī)范,AIGC 大模型的研發(fā)就會始終處于侵權(quán)和不確定的狀態(tài)。這對于行業(yè)發(fā)展顯然是不利的。
同時(shí)應(yīng)該注意到,傳統(tǒng)的授權(quán)許可以及版權(quán)法在生成式 AI 訓(xùn)練的領(lǐng)域內(nèi)會存在很多主體、條件、可行性等難以界定的問題,比如 AIGC 訓(xùn)練的數(shù)據(jù)量過于龐大眾多、來源各異,如果使用事先授權(quán)許可的方式,很難將具體的作品從海量數(shù)據(jù)中進(jìn)行分離提取,再加上版權(quán)界定、付費(fèi)等一系列操作,幾乎不可行。也就是說,AI 時(shí)代的數(shù)據(jù)侵權(quán)問題對于現(xiàn)有的版權(quán)法律和規(guī)范本身就是一項(xiàng)挑戰(zhàn),需要從頭開始一點(diǎn)一點(diǎn)完善的地方很多,但又不能不完善,因此必須盡早盡快地推進(jìn)規(guī)范化體系。
好消息是,這個(gè)問題正在得到行業(yè)的重視。比如今年 6 月,就有中文在線、同方知網(wǎng)、中國工人出版社等 26 家單位共同發(fā)布了國內(nèi)首份有關(guān) AIGC 訓(xùn)練數(shù)據(jù)版權(quán)的倡議書,就針對引導(dǎo) AI 生成內(nèi)容的合理使用、提升版權(quán)保護(hù)意識、優(yōu)化內(nèi)容授權(quán)渠道等方面提出了倡議。
同時(shí),我們也希望這次字節(jié)跳動和 OpenAI 以及 Gemini 與文心一言的事件也能成為一個(gè)契機(jī),推動生成式 AI 訓(xùn)練數(shù)據(jù)核心版權(quán)問題的規(guī)范化,從“倡議”邁向?qū)嶋H的“落地”。
只有這樣,生成式 AI 才能更好的服務(wù)于人類,服務(wù)于千行百業(yè)。
本文鏈接:http://www.www897cc.com/showinfo-45-3046-0.html大模型互相“薅羊毛”背后,行業(yè)基本操作,規(guī)范化勢在必行
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com