大規模預訓GPT(Generative PreTraining)是OpenAI在2018年提出的模型,大規模預訓練模型(大模型)漸漸成為了AI算法領域的熱點。
工作流程視角
? 算法設計環節:機器視覺、語音識別、自然語音處理、知識圖譜
? 算法實現環節:深度學習框架,訓練、推理部署,對模型的調參優化
? 算法運行環節:AI芯片和AIDC超算中心,提供硬件基礎
AI平臺:少量企業參與的AI高地之爭
? 訓練軟件框架:實現深度學習訓練算法的模塊化封裝
? 模型生產平臺:實現模型的工業級生產
? 推理部署框架:實現模型生產完成后的工業級高效、自動的部署
? 數據平臺:包括數據采集、數據標注、數據生產、數據存儲等功能
訓練框架:調節參數,生成參數
訓練框架是AI的重要基石,也是AI發展戰略的制高點。當算法變成改造甚至顛覆軟件行業的力量時,最后核心就是看這些AI的公司有沒有平臺化的能力,即“能夠批量、高效、比競爭對手更及時地供應優質算法。
推理框架:與硬件和設備端緊密相關
推理框架:主要部署在設備端和云端,因此與硬件廠商緊密相關。
開源框架的選擇:規模效應與生態
四大頂級深度學習框架陣營可以滿足絕大部分開發者要求。社區規模效應:維護力量、貢獻人員決定了算法庫擴展及時性、API水平,軟件框架規模效應較強。
行業更新熱點在“大模型”
傳統機器學習里,模型過小則欠擬合,模型過大則過擬合。深度學習里Double Descent現象在2018年揭示,隨著模型參數變多,Test Error是先下降,再上升,然后第二次下降;原則上,在成本可接受的情況下,模型越大,準確率越好。
OpenAI :GPT-3
GPT-3在許多NLP數據集上均具有出色的性能,包括翻譯、問答和文本填空任務,這還包括一些需要即時推理或領域適應的任務,例如給一句話中的單詞替換成同義詞,或執行3位數的數學運算。
GPT-3工具DALL·E和“邏輯”優化
基于GPT-3構建,僅使用了120億個參數樣本,相當于GPT-3參數量的十四分之一;有利于降低了深度學習需要的數據標注量,文本和圖像理解結合起來
優勢顯著
? 自監督學習功能,大幅降低對數據量的需求:GPT舍棄Fine-tuning,先使用海量數據預訓練大模型,得到一套模型參數,然后用這套參數對模型進行初始化,再進行訓練。大幅降低后續對數據量的需求。
? 預訓練大模型+細分場景微調,更適合長尾落地:大規模預訓練可以有效地從大量標記和未標記的數據中捕獲知識,通過將知識存儲到大量的參數中并對特定任務進行微調,極大擴展模型的泛化能力。
? 有望進一步突破現有模型結構的精度局限:可能繼續突破精度上限。
AI落地和碎片化需求同時出現
業界在2015-2017年后開始發生變化,AI走出實驗室和商業模式轉變:
? 工業場景更復雜的邏輯:編程模式從靜態網絡結構描述向動態計算過程轉變。
? SDK商業模式可能無法在國內落地:早期試圖復制海外SDK銷售路線,但這一模式無法在國內復制。
兩種路徑的總結
設計并訓練工業級的高性能AI模型需要大量的成本投入和深厚的技術沉淀,包含多場景匯總的海量數據,復雜的模型設計和訓練算法,以及復雜的軟件框架和硬件系統在內的大型計算基礎設施,AI公司需要突破技術發展的瓶頸。
-END-
本文鏈接:http://www.www897cc.com/showinfo-40-64-0.html【申萬宏源】必然的碎片化AI落地,哪種路徑可能勝出? | 元宇宙Meta洞見
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 【東方證券】虛擬世界照進現實,元宇宙中有什么? | 元宇宙Meta洞見
下一篇: 元宇宙將會如何塑造未來的工作方式?