7 月 7 日消息,B站團(tuán)隊(duì)的開(kāi)源動(dòng)漫視頻生成模型 AniSora 于 7 月 2 日更新到 AniSora V3 預(yù)覽版。
作為 Index-AniSora 項(xiàng)目的一部分,V3 版本在原有基礎(chǔ)上進(jìn)一步優(yōu)化了生成質(zhì)量、動(dòng)作流暢度和風(fēng)格多樣性,為動(dòng)漫、漫畫(huà)及 VTuber 內(nèi)容創(chuàng)作者提供了更強(qiáng)大的工具。
AniSora 支持一鍵生成多種動(dòng)漫風(fēng)格的視頻鏡頭,包括番劇片段、國(guó)創(chuàng)動(dòng)畫(huà)、漫畫(huà)改編、VTuber 內(nèi)容、動(dòng)畫(huà) PV、鬼畜(MAD)等。
AniSora V3 基于B站此前開(kāi)源的 CogVideoX-5B 和 Wan2.1-14B 模型,結(jié)合強(qiáng)化學(xué)習(xí)與人類(lèi)反饋(RLHF)框架,顯著提升了生成視頻的視覺(jué)質(zhì)量和動(dòng)作一致性。其支持一鍵生成多種風(fēng)格的動(dòng)漫視頻鏡頭,包括番劇片段、國(guó)創(chuàng)動(dòng)畫(huà)、漫畫(huà)視頻改編、VTuber 內(nèi)容等。
核心升級(jí)包括:
時(shí)空掩碼模塊(Spatiotemporal Mask Module)優(yōu)化:V3 版本增強(qiáng)了時(shí)空控制能力,支持更復(fù)雜的動(dòng)畫(huà)任務(wù),如精細(xì)的角色表情控制、動(dòng)態(tài)鏡頭移動(dòng)和局部圖像引導(dǎo)生成。例如,提示“五位女孩在鏡頭放大時(shí)起舞,左手上舉至頭頂再下放至膝蓋”能生成流暢的舞蹈動(dòng)畫(huà),鏡頭與角色動(dòng)作同步自然。
數(shù)據(jù)集擴(kuò)展:V3 繼續(xù)依托超過(guò) 1000 萬(wàn)高質(zhì)量動(dòng)漫視頻片段(從 100 萬(wàn)原始視頻中提取)進(jìn)行訓(xùn)練,新增數(shù)據(jù)清洗流水線,確保生成內(nèi)容的風(fēng)格一致性和細(xì)節(jié)豐富度。
硬件優(yōu)化:V3 新增對(duì)華為 Ascend910B NPU 的原生支持,完全基于國(guó)產(chǎn)芯片訓(xùn)練,推理速度提升約 20%,生成 4 秒高清視頻僅需 2-3 分鐘。
多任務(wù)學(xué)習(xí):V3 強(qiáng)化了多任務(wù)處理能力,支持從單幀圖像生成視頻、關(guān)鍵幀插值到唇部同步等功能,特別適合漫畫(huà)改編和 VTuber 內(nèi)容創(chuàng)作。
在最新基準(zhǔn)測(cè)試中,AniSora V3 在VBench和雙盲主觀測(cè)試中,角色一致性和動(dòng)作流暢度均達(dá)到業(yè)界頂尖水平(SOTA),尤其在復(fù)雜動(dòng)作 (如違反物理規(guī)律的夸張動(dòng)漫動(dòng)作) 上表現(xiàn)突出。
V3 還引入了首個(gè)針對(duì)動(dòng)漫視頻生成的RLHF 框架,通過(guò) AnimeReward 和 GAPO 等工具對(duì)模型進(jìn)行微調(diào),確保輸出更符合人類(lèi)審美和動(dòng)漫風(fēng)格需求。社區(qū)開(kāi)發(fā)者已開(kāi)始基于 V3 開(kāi)發(fā)定制化插件,例如增強(qiáng)特定動(dòng)漫風(fēng)格(如吉卜力風(fēng))的生成效果。
AniSora V3 支持多種動(dòng)漫風(fēng)格,包括日本動(dòng)漫、國(guó)產(chǎn)原創(chuàng)動(dòng)畫(huà)、漫畫(huà)改編、VTuber 內(nèi)容及惡搞動(dòng)畫(huà)(鬼畜動(dòng)畫(huà)),覆蓋 90% 的動(dòng)漫視頻應(yīng)用場(chǎng)景。具體應(yīng)用包括:
單圖轉(zhuǎn)視頻:用戶上傳一張高質(zhì)量動(dòng)漫圖像,配合文本提示(如“角色在向前行駛的車(chē)中揮手,頭發(fā)隨風(fēng)擺動(dòng)”),即可生成動(dòng)態(tài)視頻,保持角色細(xì)節(jié)和風(fēng)格一致。
漫畫(huà)改編:從漫畫(huà)幀生成帶唇部同步和動(dòng)作的動(dòng)畫(huà),適合快速制作預(yù)告片或短篇?jiǎng)赢?huà)。
VTuber 與游戲:支持實(shí)時(shí)生成角色動(dòng)畫(huà),助力獨(dú)立創(chuàng)作者和游戲開(kāi)發(fā)者快速測(cè)試角色動(dòng)作。
高分辨率輸出:生成視頻支持高達(dá) 1080p,確保在社交媒體、流媒體平臺(tái)上的專(zhuān)業(yè)呈現(xiàn)。
AIbase 測(cè)試顯示,V3 在生成復(fù)雜場(chǎng)景(如多角色交互、動(dòng)態(tài)背景)時(shí),相比 V2 減少了約 15% 的偽影問(wèn)題,生成時(shí)間縮短至平均 2.5 分鐘(注:4 秒視頻)。
相比 OpenAI 的 Sora 或 Kling 等通用視頻生成模型,AniSora V3 專(zhuān)注于動(dòng)漫領(lǐng)域。與字節(jié)跳動(dòng)的 EX-4D 相比,AniSora V3 更專(zhuān)注于 2D / 2.5D 動(dòng)漫風(fēng)格,而非 4D 多視角生成。
附開(kāi)源地址:
https://github.com/bilibili/Index-anisora/tree/main
本文鏈接:http://www.www897cc.com/showinfo-45-14452-0.htmlB站開(kāi)源動(dòng)漫視頻生成模型 AniSora V3 版,速度更快、質(zhì)量更高
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com