OpenAI 發布第一個文生視頻大模型 Sora, 立刻引發了廣泛的關注和探討。2 月 19 日,獵豹移動董事長兼 CEO、獵戶星空董事長傅盛受邀做客央視財經 2024 年的全新專欄直播節目《光華錄》,與主持人周運、財經科技觀察員、中國通信標準化協會互動媒體標準推進工作委員會的副主席包冉一道,圍繞 Sora 展開一場對話。
在節目中,傅盛表示,Sora 的出現證明了文生視頻技術已經可以達到以假亂真的程度,這是一個里程碑式的突破。他認為,雖然 Sora 是一次產品級的成功,但真正的大語言模型才是技術上的重大突破。傅盛解釋說,Sora 能夠達到以假亂真的效果,是因為大語言模型的出現復刻了人類的推理和直覺,使得 Sora 能夠通過直覺把物理世界展現出來。
從技術的角度來看,傅盛認為,Sora 并沒有在技術上有什么重大突破,而是采用了更大的算力和更好的工程化,“你可以把它理解成更好的工程化,采用了更大的算力,可以總結成一個成語叫熟能生巧。我們以前建模是為了通過一個物理引擎去模擬真實的世界,但是還有一種方式,不需要通過一個物理引擎,就算是一個普通人,天天畫,就跟畫雞蛋一樣,我一畫就有了立體感,熟能生巧。我腦子里并沒有物理方程式,但是因為我見了很多以后,我就形成直覺了。由于這次大語言模型的出現,把以前人的那種推理和直覺給復刻出來,所以這一次 Sora 從技術層面來說,也是特別得益于大語言模型的出現,使得它沒有去建一個純粹的物理模型,但是能夠通過直覺把物理世界展現出來。”
在文生圖領域,Sora 并不是簡單地找了一個近似的人,而是創造出了一個全新的人物。這一點在文生圖領域已經有了先例。比如,讓 Sora 創造一個美女,這個人物在現實世界中可能從未出現過,但是看起來卻符合觀眾的審美標準。此外,觀察 OpenAI 發布的視頻,可以發現其中一些地方有些取巧,或者說是故意讓觀眾感到震驚。比如,水面倒影和雪的質感等。雖然我們認為最難的是光影效果,但對于大模型或者圖像引擎來說,畫一個普通雞蛋和描繪晚上水面的倒影沒有本質區別。我們之所以感覺到區別,是因為我們受限于使用的器材和我們的認知積累。換句話說,對于一個小孩來說,黑夜和白天在視覺上并沒有本質區別。
傅盛認為“這相當于它又打開了一扇門”,“文成視頻能做的這么好,很快很多人都會進入,我昨天還專門跟我們在美國的同事做了探討,覺得它并不是一個獨一無二的技術,未來會出現很多這樣的工具。”
在討論硬件層面時,傅盛提到,算力的成本在持續下降,類比汽車剛出現時汽油價格的下降。他表示,即使算法沒有更新,算力的成本也會急劇下降。他還指出,今年出現的新 CPU 都會帶有一個推理算力的子芯片,這種趨勢將使得大模型的應用變得更加普及。
本文鏈接:http://www.www897cc.com/showinfo-26-78815-0.html獵豹移動 CEO 傅盛解讀 Sora 背后的技術突破
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com