當(dāng)前位置：首頁 > 元宇宙 > AI

多模態(tài)模型Vidu1.5突破，Scaling Law迎來新拐點(diǎn)？

來源：責(zé)編：時間：2025-02-17 07:08:11 74觀看

導(dǎo)讀在自然語言處理領(lǐng)域，一個引人矚目的現(xiàn)象正在顯現(xiàn)：傳統(tǒng)的通過增加模型規(guī)模和數(shù)據(jù)量來提升性能的Scaling Law似乎已逼近瓶頸。業(yè)界開始擔(dān)憂，單純依賴這種策略或許已難以帶來顯著的性能飛躍，低精度訓(xùn)練和推理正使得模型性能

在自然語言處理領(lǐng)域，一個引人矚目的現(xiàn)象正在顯現(xiàn)：傳統(tǒng)的通過增加模型規(guī)模和數(shù)據(jù)量來提升性能的Scaling Law似乎已逼近瓶頸。業(yè)界開始擔(dān)憂，單純依賴這種策略或許已難以帶來顯著的性能飛躍，低精度訓(xùn)練和推理正使得模型性能提升的邊際效益逐漸遞減。然而，在自然語言處理遭遇挑戰(zhàn)的同時，多模態(tài)模型領(lǐng)域卻似乎尚未觸及這一限制。

多模態(tài)數(shù)據(jù)，涵蓋圖像、視頻、音頻等多種類型，因其信息豐富度、處理方法和應(yīng)用領(lǐng)域的復(fù)雜性，難以達(dá)到大規(guī)模訓(xùn)練的標(biāo)準(zhǔn)。因此，Scaling Law在多模態(tài)領(lǐng)域尚未得到充分驗(yàn)證。但這一現(xiàn)狀即將發(fā)生改變。清華系大模型公司生數(shù)科技最新發(fā)布的Vidu 1.5，正引領(lǐng)多模態(tài)領(lǐng)域邁向新的發(fā)展階段。

Vidu 1.5通過持續(xù)的規(guī)模擴(kuò)展（Scaling Up），已達(dá)到了一個關(guān)鍵的“奇點(diǎn)”時刻，涌現(xiàn)出了強(qiáng)大的“上下文能力”。這一能力使模型能夠理解并記憶輸入的多主體信息，展現(xiàn)出對復(fù)雜主體更為精準(zhǔn)的控制。無論是細(xì)節(jié)豐富的角色還是復(fù)雜的物體，僅需上傳不同角度的三張圖片，Vidu 1.5便能確保單主體形象的高度一致。

Vidu 1.5的突破不僅限于單主體控制，還實(shí)現(xiàn)了多主體之間的一致性。用戶能夠上傳包含人物角色、道具物體、環(huán)境背景等多種元素的圖像，Vidu能夠?qū)⑦@些元素?zé)o縫融合，實(shí)現(xiàn)自然交互。這一能力標(biāo)志著多模態(tài)模型在主體一致性方面取得了重大進(jìn)展。

Vidu在主體一致性方面的成就，不僅得益于Scaling Law的發(fā)揮，更源于其采用的無微調(diào)、大一統(tǒng)的技術(shù)架構(gòu)方案。當(dāng)前主流的視頻模型為實(shí)現(xiàn)一致性，大多采用在預(yù)訓(xùn)練基礎(chǔ)上針對單個任務(wù)進(jìn)行微調(diào)的LoRA方案。而Vidu的底層模型則跳出了這一框架，做出了開拓性的改變。這一改變與生數(shù)科技一貫堅(jiān)持的通用性理念相契合，通過統(tǒng)一的底層模型技術(shù)架構(gòu)，無需單獨(dú)進(jìn)行數(shù)據(jù)收集、標(biāo)注和微調(diào)，僅需1到3張圖即可輸出高質(zhì)量視頻。

回顧大語言模型的發(fā)展歷程，從GPT-2到GPT-3.5的質(zhì)變，同樣實(shí)現(xiàn)了從預(yù)訓(xùn)練+特定任務(wù)微調(diào)向統(tǒng)一框架的突破。Vidu 1.5的推出，標(biāo)志著多模態(tài)大模型正經(jīng)歷著類似于GPT-3.5的時刻。這一突破不僅體現(xiàn)在技術(shù)上，更在于設(shè)計(jì)理念上的革新。

生數(shù)科技CTO鮑凡表示，公司不會盲目追隨Sora等已有模型的路線，而是從一開始就瞄準(zhǔn)通用多模態(tài)大模型的目標(biāo)，進(jìn)行自主研發(fā)。從全球首個基于Diffusion的Transformer架構(gòu)U-ViT的發(fā)布，到首次實(shí)現(xiàn)用統(tǒng)一架構(gòu)處理泛化任務(wù)，生數(shù)科技不僅擁有先發(fā)優(yōu)勢，更具備持續(xù)突破的能力。Vidu與業(yè)界其他視頻生成模型相比，已形成明顯的技術(shù)代差。

在主體一致性這一難題上，Vidu取得了顯著成果。鮑凡比喻道，這就像制造一臺好的發(fā)動機(jī)，雖然知道其重要性，但實(shí)現(xiàn)起來卻異常艱難。包括Sora在內(nèi)的國內(nèi)外視頻模型，在主體一致性方面均未取得突破。而Vidu則從上線之初就主打解決一致性問題，并逐步拓展到對單主體整體形象的控制，直至最新版本的Vidu 1.5，已能夠?qū)崿F(xiàn)對單主體不同視角的高度精準(zhǔn)控制，并攻破多主體控制的難題。

Vidu的技術(shù)方案與業(yè)界主流存在顯著差異。其他家仍局限于預(yù)訓(xùn)練+LoRA微調(diào)的方案，存在數(shù)據(jù)構(gòu)造繁瑣、訓(xùn)練時間長、易過擬合、無法捕捉細(xì)節(jié)等缺點(diǎn)。而生數(shù)則通過統(tǒng)一的底層模型技術(shù)架構(gòu)，無需單獨(dú)進(jìn)行數(shù)據(jù)收集、標(biāo)注和微調(diào)，僅需少量圖片即可輸出高質(zhì)量視頻。這一架構(gòu)的統(tǒng)一性不僅體現(xiàn)在問題形式上，更體現(xiàn)在底層設(shè)計(jì)上，與Sora的DiT架構(gòu)存在本質(zhì)區(qū)別。

隨著高質(zhì)量數(shù)據(jù)的一同擴(kuò)展，Vidu在底層視頻生成模型上也觀察到了類似于大語言模型的智能涌現(xiàn)現(xiàn)象。例如，Vidu 1.5能夠融合不同主體，創(chuàng)造出全新的角色，這是之前未曾預(yù)料到的能力。其智能涌現(xiàn)還體現(xiàn)在上下文能力提升和記憶能力增強(qiáng)上，能夠?qū)崿F(xiàn)對視頻中角色、道具、場景的統(tǒng)一控制。

Vidu在上下文能力方面的迭代節(jié)奏緊湊，從初期僅能參考單一主體的面部特征，到現(xiàn)在能參考多個主體，未來預(yù)期可以實(shí)現(xiàn)參考拍攝技巧、運(yùn)鏡、調(diào)度等更多因素。這一過程中，參考對象從具體到抽象，要求和難度逐漸提升。由于目前還沒有針對視頻模型上下文能力的開源解決方案，Vidu 1.5在這一領(lǐng)域形成了自己的技術(shù)壁壘。

舉報(bào) 0收藏 0打賞 0評論 0

更多>同類資訊

Deepseek崛起：國產(chǎn)AI能否改寫全球產(chǎn)業(yè)格局？

02-17

DeepSeek助力，中國股市大漲萬億，印度資金遭分流？

02-16

新聞集團(tuán)禁用DeepSeek聊天機(jī)器人，擔(dān)憂安全與隱私風(fēng)險(xiǎn)

02-16

百度全面擁抱DeepSeek與文心大模型，搜索體驗(yàn)再升級！

三言科技消息 2月16日晚，百度搜索和文心智能體平臺宣布將全面接入DeepSeek和文心大模型最新的深度搜索功能。據(jù)悉，文心大模型深度搜索功能于2月13日上線，具備更強(qiáng)大的思考規(guī)劃和工具調(diào)用能力，可為用戶提…

02-16

AI合成名人音視頻亂象頻發(fā)，雷軍劉德華等名人遭殃

02-16

百度搜索大升級：DeepSeek與文心大模型深度搜索功能全面接入

02-16

微信牽手DeepSeek，AI搜索新體驗(yàn)如何？

02-16

微信攜手DeepSeek，AI搜索新體驗(yàn)究竟如何？

02-16

大專生查子涵：以專業(yè)為舞臺，創(chuàng)新演繹動車檢修智能化新篇章！

02-16

Aqara春季新品秀：AI新品矩陣與開放生態(tài)開啟智能家居新篇章

02-16

潤建股份股價(jià)異動，澄清：與DeepSeek無業(yè)務(wù)合作

02-16

大模型免費(fèi)時代來臨，DeepSeek等開源模型如何重塑行業(yè)格局？

02-16

海爾新能源“升維行動”：AI引領(lǐng)新能源行業(yè)數(shù)智化轉(zhuǎn)型

02-16

馬斯克預(yù)告：Grok 3大模型即將發(fā)布，或成“地球上最聰明的AI”？

02-16

2024全球半導(dǎo)體市場營收將大增19%，內(nèi)存市場成最大推手？

02-16

點(diǎn)擊查看更多 +

全站最新

Epic游戲商城：免費(fèi)贈送不停歇，2025年福利繼續(xù)

《暗黑破壞神》15年速通紀(jì)錄被證偽，速通圈迎來新變革？

《終極閃光：破壞者》體驗(yàn)不佳遭批評，開發(fā)商積極回應(yīng)并承諾修復(fù)

《黎明之人》登陸Steam：探索黑暗世界，你能帶回光明嗎？

《潛行者2》1.2.1版補(bǔ)丁：多項(xiàng)崩潰問題得到進(jìn)一步優(yōu)化

《Cheaters Cheetah》Steam開戰(zhàn)！作弊者們的另類贖罪之路

熱門內(nèi)容

美四大科技巨頭豪擲2.3萬億，AI競賽如火如荼，DeepSeek能否撼動？
DeepSeek兩日連崩，官方回應(yīng)：技術(shù)服務(wù)穩(wěn)定性受多重因素挑戰(zhàn)
硅基流動攜華為云首發(fā)DeepSeek R1&V3大模型推理服務(wù)，性能媲美高端GPU
DeepSeek大規(guī)模招聘，年薪百萬崗位等你來，AI人才你準(zhǔn)備好了嗎？
AMD顯卡本地部署DeepSeek教程來啦！輕松體驗(yàn)AI大模型
DeepSeek背后商業(yè)網(wǎng)絡(luò)揭秘：梁文鋒關(guān)聯(lián)15家企業(yè)，商標(biāo)申請競爭激烈
DeepSeek出故障：深度思考與聯(lián)網(wǎng)搜索功能齊“罷工”？
DeepSeek爆火！創(chuàng)始人梁文峰身家飆升，能否超越黃仁勛成亞洲新首富？
硅基流動攜手華為云昇騰，首發(fā)DeepSeek R1&V3推理服務(wù)，賦能開發(fā)者
梁文鋒參加巴黎AI峰會傳聞不實(shí)，仍在國內(nèi)引網(wǎng)友關(guān)切
梁文峰：從對沖基金經(jīng)理到DeepSeek創(chuàng)始人，如何改寫AI版圖？
DeepSeek故障再現(xiàn)，用戶對話受阻，官方尚未回應(yīng)
三星Galaxy S25系列真機(jī)曝光，明日發(fā)布會將有何驚喜？
DeepSeek注冊難，官方：遭大規(guī)模惡意攻擊，稍后再試
三星Galaxy S25系列評測：AI大升級，Ultra版全面領(lǐng)跑

本欄最新

Deepseek崛起：國產(chǎn)AI能否改寫全球產(chǎn)業(yè)格局？

百度搜索大升級：DeepSeek與文心大模型深度搜索功能全面接入

微信牽手DeepSeek，AI搜索新體驗(yàn)如何？

微信攜手DeepSeek，AI搜索新體驗(yàn)究竟如何？

大專生查子涵：以專業(yè)為舞臺，創(chuàng)新演繹動車檢修智能化新篇章！

Aqara春季新品秀：AI新品矩陣與開放生態(tài)開啟智能家居新篇章

本文鏈接：http://www.www897cc.com/showinfo-45-10843-0.html多模態(tài)模型Vidu1.5突破，Scaling Law迎來新拐點(diǎn)？

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI眼鏡新風(fēng)口：「Gyges Labs」完成Pre-A輪融資，引領(lǐng)智能穿戴技術(shù)革新

下一篇： Deepseek崛起：國產(chǎn)AI能否改寫全球產(chǎn)業(yè)格局？

標(biāo)簽：

熱門焦點(diǎn)

10億基金，李彥宏呼喚下一個AI獨(dú)角獸

©?深響原創(chuàng) · 作者｜何文 AI太熱了。在海外，OpenAI估值已超270億美元、英偉達(dá)市值破萬億、微軟把GPT整合進(jìn)了全線產(chǎn)品。在國內(nèi)，百度、阿里、華為、商湯等大公司，以及
VR/AR迷失元宇宙“硝煙”

不溫不火的VR/AR可穿戴設(shè)備因元宇宙崛起火了一陣，又隨著元宇宙回歸平靜。1月份，微軟在 Surface 設(shè)備、HoloLens 混合現(xiàn)實(shí)硬件和 Xbox 等部門裁員，其中負(fù)責(zé)混合現(xiàn)實(shí)硬件（MR）的Holo
聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓住！

關(guān)于虛擬數(shù)字人，企業(yè)可以從三個方面入局，分別是ToG（To Government，面向政府），即為數(shù)字政府和數(shù)字城市提供支持服務(wù)；ToB（To Business，面向企業(yè)），即為企業(yè)提供虛擬員工解決方案；ToC（To Cons
大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當(dāng)下所有大廠推出的元宇宙產(chǎn)品，所能帶來的沉浸式體驗(yàn)并不多，好在國內(nèi)外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設(shè)
Layer1的新以太坊，更好的以太坊？

以太坊作為區(qū)塊鏈基礎(chǔ)設(shè)施地位看起來已不可動搖，但也面臨著費(fèi)用高、效率低、偏離去中心化初衷等問題。平臺上既得利益群體的形成和固化也逐漸讓革新變得困難。
NFT 技術(shù)將傳世之作帶入博物館

意大利四大博物館已與一個項(xiàng)目合作，該項(xiàng)目將展示和銷售達(dá)芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復(fù)制品。該計(jì)劃采用了科技公司Cincello的國際專
NFT：新騙局的狩獵場

騙局的自動化需要更好的防御，從數(shù)字身份開始。前幾天我在OpenSea上購買了一個NFT，是才華橫溢的藝術(shù)家海倫·福爾摩斯 (Helen Holmes) 的漫畫，來自她的 "原作 "收
以太坊面臨來自Fantom的巨大挑戰(zhàn)

眾所周知，區(qū)塊鏈和加密貨幣項(xiàng)目經(jīng)常因其對環(huán)境的影響而受到批評。但是有一個非營利性的加密貨幣和區(qū)塊鏈項(xiàng)目說它比其他的更環(huán)保。今天老雅痞就給大家聊一聊加
元宇宙平臺會是上世紀(jì)末的互聯(lián)網(wǎng)嗎？

“元宇宙”火了好幾個月，互聯(lián)網(wǎng)大廠忙于布局，資本市場熱烈追捧。然而很多人還是看不明白，更多的人覺得這是一場泡沫，一場騙局。一開始接觸這個怪里怪氣的名詞，感覺

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

多模態(tài)模型Vidu1.5突破，Scaling Law迎來新拐點(diǎn)？

10億基金，李彥宏呼喚下一個AI獨(dú)角獸

VR/AR迷失元宇宙“硝煙”

聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓住！

大廠元宇宙，又菜又愛玩

Layer1的新以太坊，更好的以太坊？

NFT 技術(shù)將傳世之作帶入博物館

NFT：新騙局的狩獵場

以太坊面臨來自Fantom的巨大挑戰(zhàn)

元宇宙平臺會是上世紀(jì)末的互聯(lián)網(wǎng)嗎？

最新推薦

新周期，誰在堅(jiān)守窄門？

以太坊升級將會帶來的5個改變

借VR產(chǎn)業(yè)東風(fēng)，江西搶灘布局“元宇宙”

頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強(qiáng)殺手&——quot;有望涅槃重生？

對諷刺無動于衷，Nori將碳市場放在區(qū)塊鏈上

初探元宇宙

猜你喜歡

熱門推薦

相關(guān)資訊