日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

多模態模型Vidu1.5突破,Scaling Law迎來新拐點?

來源: 責編: 時間:2025-02-17 07:08:11 51觀看
導讀在自然語言處理領域,一個引人矚目的現象正在顯現:傳統的通過增加模型規模和數據量來提升性能的Scaling Law似乎已逼近瓶頸。業界開始擔憂,單純依賴這種策略或許已難以帶來顯著的性能飛躍,低精度訓練和推理正使得模型性能

在自然語言處理領域,一個引人矚目的現象正在顯現:傳統的通過增加模型規模和數據量來提升性能的Scaling Law似乎已逼近瓶頸。業界開始擔憂,單純依賴這種策略或許已難以帶來顯著的性能飛躍,低精度訓練和推理正使得模型性能提升的邊際效益逐漸遞減。然而,在自然語言處理遭遇挑戰的同時,多模態模型領域卻似乎尚未觸及這一限制。8qz28資訊網——每日最新資訊28at.com

多模態數據,涵蓋圖像、視頻、音頻等多種類型,因其信息豐富度、處理方法和應用領域的復雜性,難以達到大規模訓練的標準。因此,Scaling Law在多模態領域尚未得到充分驗證。但這一現狀即將發生改變。清華系大模型公司生數科技最新發布的Vidu 1.5,正引領多模態領域邁向新的發展階段。8qz28資訊網——每日最新資訊28at.com

Vidu 1.5通過持續的規模擴展(Scaling Up),已達到了一個關鍵的“奇點”時刻,涌現出了強大的“上下文能力”。這一能力使模型能夠理解并記憶輸入的多主體信息,展現出對復雜主體更為精準的控制。無論是細節豐富的角色還是復雜的物體,僅需上傳不同角度的三張圖片,Vidu 1.5便能確保單主體形象的高度一致。8qz28資訊網——每日最新資訊28at.com

Vidu 1.5的突破不僅限于單主體控制,還實現了多主體之間的一致性。用戶能夠上傳包含人物角色、道具物體、環境背景等多種元素的圖像,Vidu能夠將這些元素無縫融合,實現自然交互。這一能力標志著多模態模型在主體一致性方面取得了重大進展。8qz28資訊網——每日最新資訊28at.com

Vidu在主體一致性方面的成就,不僅得益于Scaling Law的發揮,更源于其采用的無微調、大一統的技術架構方案。當前主流的視頻模型為實現一致性,大多采用在預訓練基礎上針對單個任務進行微調的LoRA方案。而Vidu的底層模型則跳出了這一框架,做出了開拓性的改變。這一改變與生數科技一貫堅持的通用性理念相契合,通過統一的底層模型技術架構,無需單獨進行數據收集、標注和微調,僅需1到3張圖即可輸出高質量視頻。8qz28資訊網——每日最新資訊28at.com

回顧大語言模型的發展歷程,從GPT-2到GPT-3.5的質變,同樣實現了從預訓練+特定任務微調向統一框架的突破。Vidu 1.5的推出,標志著多模態大模型正經歷著類似于GPT-3.5的時刻。這一突破不僅體現在技術上,更在于設計理念上的革新。8qz28資訊網——每日最新資訊28at.com

生數科技CTO鮑凡表示,公司不會盲目追隨Sora等已有模型的路線,而是從一開始就瞄準通用多模態大模型的目標,進行自主研發。從全球首個基于Diffusion的Transformer架構U-ViT的發布,到首次實現用統一架構處理泛化任務,生數科技不僅擁有先發優勢,更具備持續突破的能力。Vidu與業界其他視頻生成模型相比,已形成明顯的技術代差。8qz28資訊網——每日最新資訊28at.com

在主體一致性這一難題上,Vidu取得了顯著成果。鮑凡比喻道,這就像制造一臺好的發動機,雖然知道其重要性,但實現起來卻異常艱難。包括Sora在內的國內外視頻模型,在主體一致性方面均未取得突破。而Vidu則從上線之初就主打解決一致性問題,并逐步拓展到對單主體整體形象的控制,直至最新版本的Vidu 1.5,已能夠實現對單主體不同視角的高度精準控制,并攻破多主體控制的難題。8qz28資訊網——每日最新資訊28at.com

Vidu的技術方案與業界主流存在顯著差異。其他家仍局限于預訓練+LoRA微調的方案,存在數據構造繁瑣、訓練時間長、易過擬合、無法捕捉細節等缺點。而生數則通過統一的底層模型技術架構,無需單獨進行數據收集、標注和微調,僅需少量圖片即可輸出高質量視頻。這一架構的統一性不僅體現在問題形式上,更體現在底層設計上,與Sora的DiT架構存在本質區別。8qz28資訊網——每日最新資訊28at.com

隨著高質量數據的一同擴展,Vidu在底層視頻生成模型上也觀察到了類似于大語言模型的智能涌現現象。例如,Vidu 1.5能夠融合不同主體,創造出全新的角色,這是之前未曾預料到的能力。其智能涌現還體現在上下文能力提升和記憶能力增強上,能夠實現對視頻中角色、道具、場景的統一控制。8qz28資訊網——每日最新資訊28at.com

Vidu在上下文能力方面的迭代節奏緊湊,從初期僅能參考單一主體的面部特征,到現在能參考多個主體,未來預期可以實現參考拍攝技巧、運鏡、調度等更多因素。這一過程中,參考對象從具體到抽象,要求和難度逐漸提升。由于目前還沒有針對視頻模型上下文能力的開源解決方案,Vidu 1.5在這一領域形成了自己的技術壁壘。8qz28資訊網——每日最新資訊28at.com

舉報 0收藏 0打賞 0評論 0
 
 
更多>同類資訊
點擊查看更多 +
全站最新
Epic游戲商城:免費贈送不停歇,2025年福利繼續
Epic游戲商城:免費贈送不停歇,2025年福利繼續
《暗黑破壞神》15年速通紀錄被證偽,速通圈迎來新變革?
《暗黑破壞神》15年速通紀錄被證偽,速通圈迎來新變革?
《終極閃光:破壞者》體驗不佳遭批評,開發商積極回應并承諾修復
《終極閃光:破壞者》體驗不佳遭批評,開發商積極回應并承諾修復
《黎明之人》登陸Steam:探索黑暗世界,你能帶回光明嗎?
《黎明之人》登陸Steam:探索黑暗世界,你能帶回光明嗎?
《潛行者2》1.2.1版補丁:多項崩潰問題得到進一步優化
《潛行者2》1.2.1版補丁:多項崩潰問題得到進一步優化
《Cheaters Cheetah》Steam開戰!作弊者們的另類贖罪之路
《Cheaters Cheetah》Steam開戰!作弊者們的另類贖罪之路
熱門內容
  • 美四大科技巨頭豪擲2.3萬億,AI競賽如火如荼,DeepSeek能否撼動?
  • DeepSeek兩日連崩,官方回應:技術服務穩定性受多重因素挑戰
  • 硅基流動攜華為云首發DeepSeek R1&V3大模型推理服務,性能媲美高端GPU
  • DeepSeek大規模招聘,年薪百萬崗位等你來,AI人才你準備好了嗎?
  • AMD顯卡本地部署DeepSeek教程來啦!輕松體驗AI大模型
  • DeepSeek背后商業網絡揭秘:梁文鋒關聯15家企業,商標申請競爭激烈
  • DeepSeek出故障:深度思考與聯網搜索功能齊“罷工”?
  • DeepSeek爆火!創始人梁文峰身家飆升,能否超越黃仁勛成亞洲新首富?
  • 硅基流動攜手華為云昇騰,首發DeepSeek R1&V3推理服務,賦能開發者
  • 梁文鋒參加巴黎AI峰會傳聞不實,仍在國內引網友關切
  • 梁文峰:從對沖基金經理到DeepSeek創始人,如何改寫AI版圖?
  • DeepSeek故障再現,用戶對話受阻,官方尚未回應
  • 三星Galaxy S25系列真機曝光,明日發布會將有何驚喜?
  • DeepSeek注冊難,官方:遭大規模惡意攻擊,稍后再試
  • 三星Galaxy S25系列評測:AI大升級,Ultra版全面領跑
本欄最新
Deepseek崛起:國產AI能否改寫全球產業格局?
Deepseek崛起:國產AI能否改寫全球產業格局?
百度搜索大升級:DeepSeek與文心大模型深度搜索功能全面接入
百度搜索大升級:DeepSeek與文心大模型深度搜索功能全面接入
微信牽手DeepSeek,AI搜索新體驗如何?
微信牽手DeepSeek,AI搜索新體驗如何?
微信攜手DeepSeek,AI搜索新體驗究竟如何?
微信攜手DeepSeek,AI搜索新體驗究竟如何?
大專生查子涵:以專業為舞臺,創新演繹動車檢修智能化新篇章!
大專生查子涵:以專業為舞臺,創新演繹動車檢修智能化新篇章!
Aqara春季新品秀:AI新品矩陣與開放生態開啟智能家居新篇章
Aqara春季新品秀:AI新品矩陣與開放生態開啟智能家居新篇章

本文鏈接:http://www.www897cc.com/showinfo-45-10843-0.html多模態模型Vidu1.5突破,Scaling Law迎來新拐點?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI眼鏡新風口:「Gyges Labs」完成Pre-A輪融資,引領智能穿戴技術革新

下一篇: Deepseek崛起:國產AI能否改寫全球產業格局?

標簽:
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

相關資訊

Top 主站蜘蛛池模板: 旅游| 万安县| 尼木县| 麦盖提县| 翁牛特旗| 美姑县| 阿克陶县| 江门市| 抚顺县| 乐陵市| 鄂托克前旗| 南澳县| 林西县| 永善县| 泰来县| 甘泉县| 望都县| 新乡县| 饶平县| 黄龙县| 长沙市| 台中市| 辽源市| 澳门| 句容市| 措勤县| 静乐县| 青田县| 沂源县| 福建省| 乐安县| 通榆县| 东乡族自治县| 安图县| 尚义县| 宁德市| 沙湾县| 兴文县| 塔河县| 达孜县| 吉木乃县|