新智元報道
編輯:Aeneas 好困
【新智元導讀】2026 年的數據荒越來越近,硅谷大廠們已經為 AI 訓練數據搶瘋了!它們紛紛豪擲十數億美元,希望把犄角旮旯里的照片、視頻、聊天記錄都給挖出來。不過,如果有一天 AI 忽然吐出了我們的自拍照或者隱私聊天,該怎么辦?
誰能想到,我們多年前的聊天記錄、社交媒體上的陳年照片,忽然變得價值連城,被大科技公司爭相瘋搶。
現在,硅谷大廠們已經紛紛出動,買下所有能購買版權的互聯網數據,這架勢簡直要搶破頭了!
圖像托管網站 Photobucket 的陳年舊數據,本來已經多年無人問津,但如今,它們正在被各大互聯網公司瘋搶,用來訓練 AI 模型。
為此,科技巨頭們愿意拿出實打實的真金白銀。比如,每張照片價值 5 美分到 1 美元,每個視頻價值超過 1 美元,具體情況取決于買家和素材種類。
總之,為了購買 AI 訓練數據,巨頭們已經展開了一場地下競賽!
而最近鬧得轟轟烈烈的 Meta 圖像生成器大翻車事件,更是讓 AI 的訓練數據「刻板印象」暴露無遺。
如果喂給模型的數據無法改變「偏見」,那各大公司要遭遇的輿論風波,只怕少不了。
Meta 的 AI 生圖工具畫不出來「亞洲男性和白人妻子」或「亞洲女性和白人丈夫」
巨頭狂砸數十億美元,只為買到數據「黃金」根據路透社報道,在 2000 年代,Photobucket 處于巔峰期,擁有 7000 萬用戶。而今天,這家頂級網站的用戶已經驟降到了 200 萬人。
但生成式 AI,給這家公司帶來了新生。
CEO Ted Leonard 開心地透露,目前已經有多家科技公司找上門來,愿意重金購買公司的 130 億份照片和視頻。
目的,當然就是訓練 AI。
為了得到這些數據,各大公司都非常舍得割肉。
而且,他們還想要更多!據說,一位買家表示,自己想要超過 10 億個視頻,而這,已經遠遠超出了 Photobucket 能提供的數量。
據粗略估計,Photobucket 手中握著的數據,很可能價值數十億美元。
OpenAI 陷起訴風波,版權太敏感了現在眼看著,大家的數據都不夠用了。
根據 Epoch 研究所的分析,到 2026 年,科技公司很可能會耗盡互聯網上所有的高質量數據,因為他們消耗數據的速度,遠遠超過了數據的生成速度!
訓練 ChatGPT 的數據,是從互聯網上免費抓取的。Sora 的訓練數據來源不詳,CTO Murati 接受采訪時支支吾吾的表現,險些又讓 OpenAI 大翻車。
雖然 OpenAI 表示,自己的做法完全合法,但前方還有一堆版權訴訟在等著他們。而其他大科技公司都跟著學乖了,大家都在悄悄地為付費墻和登錄屏幕背后的鎖定內容付費。
如今,無論是陳舊的聊天記錄,還是被遺忘的社交媒體上褪色的舊照片,忽然都變成了價值連城的東西。而各大公司已經紛紛出動,急于尋找版權所有者的授權。畢竟,私人收藏的東西,是無法抓取的。
外媒記者走訪了 30 多名專業人士,發現這背后隱藏的,是一個黃金市場。
雖然很多公司對于這個不透明的 AI 市場規模表示緘默,但 Business Research Insights 等研究人員認為,目前市場規模約為 25 億美元,并預測十年內可能會增長近 300 億美元。
生成數據淘金熱,讓數據商樂開花對科技公司來說,如果不能使用免費抓取的網頁數據檔案,比如 Common Crawl,那成本會是一個很可怕的數字。
但是一連串版權訴訟和監管熱潮,已經讓他們別無選擇。甚至,硅谷已經出現了一個新興的行業 —— 數據經紀人。而圖片、視頻供應商們,也隨之賺得盆滿缽滿。
手快的公司,早就反應過來了。ChatGPT 在 2022 年底亮相的幾個月內,Meta、谷歌、亞馬遜和蘋果就已經迅速和圖片庫提供商 Shutterstock 達成協議,使用庫中的數億份圖像、視頻和音樂文件進行訓練。
根據首席財務官透露的數據,這些交易從 2500 萬美元到 5000 萬美元不等。
而 Shutterstock 的競爭對手 Freepik,也已經有了兩位大買家,2 億張圖片檔案中的大部分,會以 2 至 4 美分的價格授權。
OpenAI 當然也不會落后,它不僅是 Shutterstock 的早期客戶,還與包括美聯社在內的至少四家新聞機構簽署了許可協議。
讓內容「合乎道德」
同時興起的,還有 AI 數據定制行業。
這批公司獲得了與播客、短視頻和與數字助理互動等現實世界內容的授權,同時還建立了短期合同工網絡,從頭開始定制視覺效果和語音樣本。
作為代表之一的 Defined.ai,已經把自己的內容賣給了谷歌、Meta、蘋果、亞馬遜、微軟等多家科技大廠。
其中,一張圖片賣 1 到 2 美元,一部短視頻賣 2 到 4 美元,一部長片每小時可以賣到 100 到 300 美元,文本的市價則是每字 0.001 美元。
而比較麻煩的裸體圖像,售價為 5 到 7 美元,因為還需要后期處理。
而這些照片、播客和醫療數據的所有者,也會獲得總交易額 20% 至 30% 的費用。
一位巴西數據商表示,為了獲得犯罪現場、沖突暴力和手術的圖像,他需要從警察、自由攝影記者和醫學生手里去買。
他補充說,他的公司雇用了習慣于看到暴力傷害的護士來脫敏和標注這些圖像,這對未經訓練的眼睛來說是令人不安的。
而將圖像脫敏、標注的工作,則交給慣于看到暴力傷害的護士,畢竟未經訓練的人眼看到這些圖像,會很不安。
然而,這些 AI 模型的「燃料」,很可能會引發嚴重的問題,比如 —— 吐出用戶隱私。
專家發現,AI 會反芻訓練數據,比如,它們會吐出 Getty Images 水印,逐字輸出紐約時報文章的段落,甚至再現真人圖像。
Getty Images 指責 Stability AI「以驚人的規模肆無忌憚地侵犯它的知識產權」
也就是說,幾十年前某人發布的私人照片或私密想法,很可能在不知情的情況下,被 AI 模型原樣吐了出來!
這次「ChatGPT 在回復中泄露陌生男子自拍照事件」,讓大家頗為恐慌
這些隱患,目前還沒有有效方法解決。
調查顯示,用戶愿意每月多付 1 美元,讓自己的個人數據不被第三方使用
Altman,也看上了合成數據
另外,Sam Altman 也早看到了合成數據的未來。
這些數據不是人類直接創造的,而是由 AI 模型生成的文本、圖像和代碼,也就是說,這些系統通過學習自己產生的內容來進步。
既然 AI 能創造出接近人類的文本,當然也就能自產自銷,幫自己進化成更先進的版本。
只要我們能夠跨過合成數據的關鍵閾值,即讓模型能夠自主創造出高質量的合成數據,那么一切問題都將迎刃而解。
——Sam Altman
不過,這件事真的這么容易嗎?
人工智能研究者們已經研究合成數據多年,但要構建一個能自我訓練的人工智能系統并非易事。
專家發現,模型如果只依賴于自我生成的數據,可能會不斷重復自己的錯誤和局限,陷入一個自我加強的循環中。
這些系統所需的數據,就像是在叢林中尋找一條路徑,如果它們僅僅依賴于合成數據,就可能在叢林里迷路。
—— 前 OpenAI 研究員、現任不列顛哥倫比亞大學計算機科學教授 Jeff Clune
對此,OpenAI 正在探索如何讓兩個不同的人工智能模型協作,共同生成更高質量、更可靠的合成數據。其中一個負責生成數據,另一個則負責評估。
這種方法是否有效,還未可知。
數據為什么對 AI 模型這么重要?這要從下面這篇論文說起。
2020 年 1 月,約翰斯?霍普金斯大學的理論物理學家 Jared Kaplan 與 9 位 OpenAI 研究人員共同發表了一篇具有里程碑意義的人工智能論文。
他們得出了一個明確的結論:訓練大語言模型所用的數據越多,其性能就越好。
正如一個學生通過閱讀更多書籍能學到更多知識一樣,大語言模型能通過更多的信息更精確地識別文本模式。
很快,「只要規模足夠大,一切就皆有可能」便成為了 AI 領域的共識。
2020 年 11 月,OpenAI 推出的 GPT-3,便利用了當時最為龐大的數據進行訓練 —— 約 3000 億個 token。
在吸收了這些數據后,GPT-3 展現出了驚人的文本生成能力 —— 它不僅可以撰寫博客文章、詩歌,甚至還能編寫自己的計算機程序。
但如今看來,這個數據集的規模就顯得相當小了。
到了 2022 年,DeepMind 將訓練數據直接拉到了 1.4 萬億個 token,比 Kaplan 博士在論文中預測的還要多。
然而,這一記錄并未保持太久。
2023 年,谷歌發布的 PaLM 2,在訓練 token 上更是達到了 3.6 萬億 —— 幾乎是牛津大學博德利圖書館自 1602 年以來收集手稿數量的兩倍。
為訓 GPT-4,OpenAI 白嫖 100 萬 + 小時 YouTube 視頻但正如 OpenAI 的 CEO Sam Altman 所說,AI 終究會消耗完互聯網上所有可用的數據資源。
這不是預言,也不是危言聳聽 —— 因為 Altman 本人就曾親眼目睹過它的發生。
在 OpenAI,研究團隊多年來一直在收集、清理數據,并將其匯集成巨大的文本庫,用以訓練公司的語言模型。
他們從 GitHub 這個計算機代碼庫中提取信息,收集了國際象棋走法的數據庫,并利用 Quizlet 網站上關于高中考試和作業的數據。
然而,到了 2021 年底,這些數據資源已經耗盡。
為了下一代 AI 模型的開發,總裁 Brockman 決定親自披掛上陣。在他的帶領下,團隊開發出了一款全新名的語音識別工具 Whisper,可以快速準確地轉錄播客、有聲讀物和視頻。
有了 Whisper 之后,OpenAI 很快便轉錄了超過 100 萬小時的 YouTube 視頻,而 Brockman 更是親自參與到了收集工作當中。
最終的故事大家都知道了,在如此高質量數據的加持下,地表最強的 GPT-4 橫空出世。
谷歌:我也一樣有趣的是,谷歌其實早就知道 OpenAI 在利用 YouTube 視頻收集數據,但從未想過要出面阻止。
你猜的沒錯,谷歌也在利用 YouTube 視頻來訓練自家的 AI 模型。
而如果要對 OpenAI 的行為大加指責,他們不僅會暴露自己,甚至還會引發公眾更加強烈的反應。
不僅如此,那些儲存在 Google Docs、Google Sheets 等應用里的數十億文字數據,也是谷歌的目標。
2023 年 6 月,谷歌的法律部門要求隱私團隊修改服務條款,從而擴展公司對消費者數據的使用權限。
也就是,為公司能夠利用用戶公開分享的內容開發一系列的 AI 產品,鋪平道路。
據員工透露,他們被明確指示要在 7 月發布新的條款,因為那時大家的注意力都在即將到來的假期上。
同樣在追趕 OpenAI 的,還有 Meta。
為了能夠超越 ChatGPT,小扎不分晝夜地催促公司的高管和工程師加快開發一個能與之競爭的聊天機器人。
然而,到了去年年初,Meta 也遇到了和其他競爭者一樣的難題 —— 數據不足。
盡管 Meta 掌管著龐大的社交網絡資源,但不僅用戶沒有保留帖子的習慣(很多人會刪除自己之前的發布),而且 Facebook 畢竟也不是一個大家習慣發高質量長文的地方。
生成式 AI 副總裁 Ahmad Al-Dahle 向高層透露,為了開發出一個模型,他的團隊幾乎利用了網絡上所有可找到的英文書籍、論文、詩歌和新聞文章。
但這些還遠遠不夠。
2023 年 3 月到 4 月,公司的商務發展負責人、工程師和律師幾乎每天都在密集會議,試圖找到解決方案。
他們考慮了為獲取新書的完整版權支付每本 10 美元的可能性,并討論了收購出版了斯蒂芬?金等作者作品的 Simon & Schuster 的想法。
與此同時,他們還討論了未經允許就對網絡上的書籍、論文等作品進行摘要的做法,并考慮進一步「吸收」更多內容,哪怕這可能招致法律訴訟。
好在,作為行業標桿的 OpenAI,就在未經授權的情況下使用了版權材料,而 Meta 或許可以參考這一「市場先例」。
根據錄音,Meta 的高管們決定借鑒 2015 年作家協會(Authors Guild)對谷歌的法庭判決。
在那個案例中,谷歌被允許掃描、數字化并在在線數據庫中編目書籍,因為它僅在線上復制了作品的一小部分,并且改變了原作,這被認定為合理使用。
在會議中,Meta 的律師們表示,用數據訓練人工智能系統應當同樣被視為合理使用。
但即便如此,Meta 似乎還是沒攢夠數據……
AI 生圖工具拒絕「白人和亞洲人」合影最近,外媒 The Verge 的記者在多次嘗試后發現,Meta 的 AI 圖像生成工具并不能創建一張東亞男性和白人女性同框的圖片。
不管 prompt 是「亞洲男性與白人朋友」、「亞洲男性與白人妻子」、「亞洲女性與白人丈夫」,還是經過魔改的「一位亞洲男性和一位白人女性帶著狗微笑」,都于事無補。
當他將「白人」改為「高加索人」時,結果依舊如此。
比如「亞洲男性和高加索女性的婚禮日」這個 prompt,得到的卻是一張身穿西裝的亞洲男性與身著旗袍 / 和服混搭的亞洲女性的圖像……
AI 居然難以想象亞洲人與白人并肩而立的場景,這著實有些匪夷所思。
而且,在生成的內容中,還隱藏著更加微妙的偏見。
舉個例子,Meta 總是將「亞洲女性」描繪成東亞面孔,似乎忽略了印度作為世界上人口最多國家的事實。與此同時,「亞洲男性」多為年長者,而亞洲女性卻總是年輕化。
相比之下,OpenAI 加持的 DALL-E 3,就完全沒有這個問題。
對此,有網友指出,出現這個問題的原因是 Meta 在模型訓練時沒有輸入足夠多的場景示例。
簡而言之,問題不在于代碼本身,而在于模型訓練時所使用的數據集不夠豐富,沒有充分覆蓋所有可能的場景。
但更深層次的是,AI 的行為是其創造者偏見的體現。
在美國媒體中,「亞洲人」通常就是指東亞人,不符合這一單一形象的亞洲人幾乎從文化意識中被抹去,即便是符合的人也在主流媒體中被邊緣化。
而這,只是因數據造成的 AI 偏見的一隅而已。
參考資料:
https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism
本文來自微信公眾號:新智元 (ID:AI_era)
本文鏈接:http://www.www897cc.com/showinfo-45-3932-0.html你的自拍和聊天記錄,正被硅谷大廠砸數十億美元瘋搶
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com