馬斯克說到做到:
旗下大模型Grok現(xiàn)已開源!
代碼和模型權(quán)重已上線GitHub。官方信息顯示,此次開源的Grok-1是一個3140億參數(shù)的混合專家模型——
就是說,這是當前開源模型中參數(shù)量大的一個。
消息一出,Grok-1的GitHub倉庫已攬獲4.5k標星,并且還在庫庫猛漲。
表情包們,第一時間被吃瓜群眾們熱傳了起來。
而ChatGPT本Chat,也現(xiàn)身Grok評論區(qū),開始了和馬斯克新一天的斗嘴……
那么,話不多說,來看看馬斯克這波為懟OpenAI,究竟拿出了什么真東西。
Grok-1說開源就開源
此次開源,xAI發(fā)布了Grok-1的基本模型權(quán)重和網(wǎng)絡架構(gòu)。
具體來說是2023年10月預訓練階段的原始基礎模型,沒有針對任何特定應用(例如對話)進行微調(diào)。
結(jié)構(gòu)上,Grok-1采用了混合專家(MoE)架構(gòu),包含8個專家,總參數(shù)量為314B(3140億),處理Token時,其中的兩個專家會被激活,激活參數(shù)量為86B。
單看這激活的參數(shù)量,就已經(jīng)超過了密集模型Llama 2的70B,對于MoE架構(gòu)來說,這樣的參數(shù)量稱之為龐然大物也毫不為過。
不過,在GitHub頁面中,官方也提示,由于模型規(guī)模較大(314B參數(shù)),需要有足夠GPU和內(nèi)存的機器才能運行Grok。
這里MoE層的實現(xiàn)效率并不高,選擇這種實現(xiàn)方式是為了避免驗證模型的正確性時需要自定義內(nèi)核。
模型的權(quán)重文件則是以磁力鏈接的形式提供,文件大小接近300GB。
而且這個“足夠的GPU”,要求不是一般的高——YC上有網(wǎng)友推測,如果是8bit量化的話,可能需要8塊H100。
除了參數(shù)量前所未有,在工程架構(gòu)上,Grok也是另辟蹊徑——
沒有采用常見的Python、PyTorch或Tensorflow,而是選用了Rust編程語言以及深度學習框架新秀JAX。
而在官方通告之外,還有許多大佬通過扒代碼等方式揭露了Grok的更多技術(shù)細節(jié)。
比如來自斯坦福大學的Andrew Kean Gao,就針對Grok的技術(shù)細節(jié)進行了詳細解釋。
首先,Grok采用了使用旋轉(zhuǎn)的embedding方式,而不是固定位置embedding,旋轉(zhuǎn)位置的embedding大小為 6144,與輸入embedding相同。
當然,還有更多的參數(shù)信息:
窗口長度為8192tokens,精度為bf16
Tokenizer vocab大小為131072(2^17),與GPT-4接近;
embedding大小為6144(48 x 128);
Transformer層數(shù)為64,每層都有一個解碼器層,包含多頭注意力塊和密集塊;
key value大小為128;
多頭注意力塊中,有48 個頭用于查詢,8 個用于KV,KV 大小為 128;
密集塊(密集前饋塊)擴展因子為8,隱藏層大小為32768。
除了Gao,還有英偉達AI科學家Ethan He(何宜暉)指出,在專家系統(tǒng)的處理方面,Grok也與另一知名開源MoE模型Mixtral不同——
Grok對全部的8個專家都應用了softmax函數(shù),然后從中選擇top2專家,而Mixtral則是先選定專家再應用softmax函數(shù)。
而至于有沒有更多細節(jié),可能要看官方會不會發(fā)布進一步的消息了。
另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是說,商用友好。
為懟OpenAI怒而Open
大家伙知道,馬斯克因為OpenAI不Open,已經(jīng)向舊金山高等法院提起訴訟,正式把OpenAI給告了。
不過當時馬斯克自己搞的Grok也并沒有開源,還只面向??的付費用戶開放,難免被質(zhì)疑雙標。
大概是為了堵上這個bug,馬斯克在上周宣布:
本周,xAI將開源Grok。
雖然時間點上似乎又是馬斯克一貫的遲到風格,但xAI的這波Open如今看來確實不是口嗨,還是給了網(wǎng)友們一些小小的震撼。
有xAI新晉員工感慨說:
這將是激動人心的一年,快系好安全帶吧。
有人已經(jīng)期待起Grok作為一個開源模型,進一步攪動大模型競爭的這一池水。
不過,也并不是每個人都買馬斯克的賬:
不過說歸說,多線并進的馬斯克,近大事不止開源Grok這一件。
作為多公司、多業(yè)務的時間管理大師,馬斯克旗下,特斯拉剛剛?cè)€推出了端到端純視覺的自動駕駛系統(tǒng)FSD V12,所有北美車主用戶,都OTA更新升級,可以實現(xiàn)所有道路場景的任意點到點AI駕駛。
SpaceX則完成了第三次星艦發(fā)射,雖然后功敗垂成,但又史無前例地邁進了一大步。
推特則開源了推薦算法,然后迎來了一波自然流量新高峰。
別人都是 you can you up, no can no bb…馬斯克不一樣,bb up不選擇,邊喊邊干,還都干成了。
參考鏈接:
[1]https://github.com/xai-org/grok-1
[2]https://x.ai/blog/grok-os
本文鏈接:http://www.www897cc.com/showinfo-17-77458-0.html馬斯克突然開源Grok:3140億參數(shù)巨無霸、免費可商用
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com