中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

【每(mei)日Arxiv熱文】還在為(wei)視頻編輯發(fa)愁?港科大&螞蟻集(ji)團(tuan)提出Ditto框架刷新SOTA!

image.png

【01 論文概述】

論文標(biao)題:ScalingInstruction-BasedVideoEditingwithaHigh-QualitySyntheticDataset

作者團隊:香港科大、螞蟻集團、浙江大學、東北大學
發布時間:2025 年 10 月 17 日
論文鏈接:

Lab4AI 大模型實驗室鏈接:

1. 研究背景

l 指令驅(qu)動編輯(ji)的模態差距:指令驅(qu)動圖像(xiang)編輯(ji)已(yi)實(shi)現(xian)高精度(如InstructPix2Pix、FLUX.1Kontext 等模型),但視頻編輯(ji)顯著滯后——視頻編輯(ji)需同時保證內(nei)容修改與跨幀(zhen)時間一(yi)致性,而現(xian)有技術難以平衡這(zhe)一(yi)需求。

l 核心瓶頸:數(shu)據(ju)稀缺(que)(que):端到端視(shi)頻(pin)編輯(ji)(ji)模型(xing)依賴(lai)大(da)規模、高(gao)質量的“源視(shi)頻(pin)-指令-編輯(ji)(ji)后視(shi)頻(pin)”配對數(shu)據(ju),但人工標注成本極高(gao);現有(you)合成數(shu)據(ju)方(fang)法存在固有(you)缺(que)(que)陷:要么(me)依賴(lai)高(gao)成本逐視(shi)頻(pin)優化(如 Qin 等人 2024 年(nian)方(fang)法),要么(me)采用無訓練的圖像(xiang)-視(shi)頻(pin)傳播技術(如 Yu 等人 2025 年(nian) VEGGIE),均難(nan)以兼顧編輯(ji)(ji)多樣性、時間一致性、視(shi)覺(jue)質量與可擴展性。

l 現有數(shu)據(ju)的(de)局限性:已有的(de)指令驅(qu)動視(shi)頻(pin)數(shu)據(ju)集(ji)(如InsViE-1M)在(zai)分辨率(lv)(1024×576)、幀數(shu)(25 幀)、視(shi)覺質(zhi)量篩選等方面存(cun)在(zai)不足,且缺乏對編(bian)輯任(ren)務關(guan)鍵的(de)“高美學(xue)價值”和“自然運動”內容優化。

2. 研究目的

l 構建(jian)一套(tao)可擴(kuo)展、低(di)成本、高質量的(de)指令驅(qu)動視頻編輯(ji)數據生成框架(jia),解決數據稀缺這一核心瓶頸。

l 生(sheng)成百萬級高(gao)質量(liang)數(shu)據(ju)集(Ditto-1M),覆蓋全(quan)局(風格轉換(huan)、場景改(gai)造(zao))與局部(物體替換(huan)、添加/刪(shan)除)編(bian)輯(ji)任務,為模(mo)型訓練提供充足(zu)數(shu)據(ju)支撐。

l 訓練一款純指(zhi)令(ling)驅(qu)動的視頻(pin)編輯(ji)模型(Editto),通過模態適(shi)配策略實現從(cong)“視覺引導(dao)編輯(ji)”到(dao)“文本(ben)指(zhi)令(ling)編輯(ji)”的過渡,達(da)到(dao)指(zhi)令(ling)跟隨與(yu)時間一致(zhi)性(xing)的最優性(xing)能,建立該領域新(xin)基準。

3. 本文核心貢獻

(1)提出 Ditto 數據生成框架

· 突破現有方(fang)法(fa)的(de)“成本-質量(liang)(liang)-多樣(yang)性(xing)”權衡:融合先進(jin)圖像編(bian)輯(ji)器的(de)視覺(jue)先驗與(yu)(yu)上下文視頻(pin)生(sheng)成器(VACE),結(jie)合模型蒸餾與(yu)(yu)量(liang)(liang)化技術,將(jiang)計算成本降至(zhi)原始高保真方(fang)法(fa)的(de) 20%,同(tong)時(shi)保證時(shi)間一(yi)致性(xing)與(yu)(yu)編(bian)輯(ji)質量(liang)(liang)。

· 自動化(hua)流(liu)程(cheng):通過視覺語言模型(VLM)實現(xian)指令生(sheng)成與質量(liang)篩選,無需人工干預,支撐大(da)規模數據生(sheng)產。

(2)構建 Ditto-1M 數據集

· 規模與質量(liang):包含100 萬(wan)“源視(shi)頻-指令(ling)-編(bian)輯(ji)后視(shi)頻”三元組,分辨率 1280×720(超(chao)現有數據集),每段(duan) 101 幀、20FPS,覆(fu)蓋 70% 全局(ju)(ju)編(bian)輯(ji)(風格(ge)、場(chang)景)與 30% 局(ju)(ju)部(bu)編(bian)輯(ji)(物體操作)。

· 數據篩選嚴格:源(yuan)視頻來自(zi)專(zhuan)業平臺(Pexels),經去重、運(yun)動(dong)篩選、VLM 質量控(kong)制,確保高美學(xue)價值與自(zi)然運(yun)動(dong)特性。

(3)提出 Editto 模型與模態課程學習

· Editto 模型(xing):基于上下文(wen)視頻生成(cheng)器(qi) VACE 改進,在 Ditto-1M 上訓(xun)練后(hou),在指令跟隨、時(shi)間一(yi)致(zhi)性(xing)、視覺(jue)質量上超(chao)越現有基線,成(cheng)為指令驅(qu)動(dong)視頻編輯的(de)新 SOTA。

· 模態課程學(xue)習(xi)(MCL):通過(guo)“逐步移(yi)除視覺引導”的訓練策略,解(jie)決從“視覺 + 文(wen)本引導”到“純文(wen)本指令引導”的模態鴻溝,提升模型(xing)對抽象指令的理解(jie)能力。

(4)驗證框架有效性

· 實(shi)驗證明Ditto 框架生(sheng)成的數(shu)據(ju)可支(zhi)撐模(mo)型泛化至真實(shi)場景(sim2real 能力),且(qie) Editto 模(mo)型性能隨數(shu)據(ju)規(gui)模(mo)增(zeng)長而穩定提升,驗證了大規(gui)模(mo)高質量數(shu)據(ju)的核心價值。

4.研究方法

(1)Ditto 數據生成框架:三階段 pipeline

階段1:源視頻預處理(約 60GPU 天)

· 近重復移除:用DINOv2 視覺編(bian)碼器提取視頻特(te)征(zheng),計(ji)算 pairwise 相似度,過濾(lv)超(chao)閾值的冗余(yu)視頻,保證數據多樣性。

· 運(yun)動(dong)(dong)篩(shai)選(xuan):用CoTracker3 跟蹤視(shi)(shi)頻網格點軌(gui)跡(ji),計算平均累(lei)積位移作為(wei)“運(yun)動(dong)(dong)分數”,過濾低動(dong)(dong)態視(shi)(shi)頻(如固定鏡(jing)頭(tou)、靜態場景),保留具備時間變化的內(nei)容。

· 標準化:將通過篩選的視頻統(tong)一resize 至 1280×720,幀速率轉(zhuan)換為(wei) 20FPS,簡(jian)化后續訓練流程。

階段2:核心生成(約 6000GPU 天)

· 指令生成(VLM 兩(liang)步法(fa)):

  1. 第一階段:VLM 接收源視頻,生成包含內容、主體、場景的詳細描述(如“畫面中有一對情侶在人行道上行走,背景是城市街道”);
  2. 第二階段:將源視頻與描述輸入VLM,生成上下文相關的編輯指令(如“添加一盞發光的復古街燈,在情侶附近的人行道上投射溫暖的黃色光暈”),覆蓋全局與局部任務。

· 視覺(jue)上下文準備:

  1. 關鍵幀編輯:從源視頻中選關鍵幀,用Qwen-Image 等先進圖像編輯器按指令生成編輯后關鍵幀(作為外觀引導);
  2. 深度視頻預測:用VideoDepthAnything 模型從源視頻提取深度視頻(作為時空結構約束),保證場景幾何與運動一致性。

· 上下文視頻生成:

o 采用VACE 作為基礎生(sheng)成器,輸(shu)入“深度視(shi)頻(結(jie)構約束)+ 編(bian)(bian)輯后關鍵(jian)幀(zhen)(外(wai)觀(guan)引導(dao))+ 指(zhi)令(語(yu)義引導(dao))”,生(sheng)成編(bian)(bian)輯后視(shi)頻;

o 效率優化:通過模(mo)型量化(減(jian)少(shao)內存(cun)占用)與(yu)知識蒸(zheng)餾(liu)(Yin 等人 2025 年方法),將生(sheng)成成本降至原始高(gao)保真模(mo)型的 20%,支持大(da)規模(mo)生(sheng)產。

階段3:后處理(約 6000GPU 天)

· VLM 質(zhi)(zhi)量篩選:用 Qwen2.5-VL 評估(gu)三元(yuan)組,篩選標準包括:指令忠(zhong)實度(編輯(ji)是否(fou)匹配指令)、源語義(yi)保留(liu)(是否(fou)保留(liu)原視頻主(zhu)體與運動)、視覺質(zhi)(zhi)量(無(wu)失真/偽影)、安全性(無(wu)違規內(nei)容),過濾(lv)低質(zhi)(zhi)量樣本(ben)。

· 去噪增強:用Wan2.2 模型的精細去噪器(MoE 架構),通過 4 步反向過程移除細微偽影、提升紋理細節,同時保證編輯內容的語義一致性(不引入新偏差)。
image.png

(2)Editto 模型訓練:模態課程學習

模型架構

· 基于VACE 改進,包含(han)兩大分支:

  1. 上下文分支:提取源視頻與參考幀的時空特征,提供結構與外觀約束;
  2. 主分支:基于DiT(Transformer-based 擴散模型),融合文本指令嵌入與上下文特征,生成編輯后視頻。

· 訓(xun)練(lian)策略(lve):凍結VACE 預訓(xun)練(lian)參數,僅微調上下(xia)文(wen)塊(kuai)的(de)線性(xing)投(tou)影層,減少(shao)過擬合(he)風險。

模態課程學習(MCL)

· 初始階(jie)段(duan):輸入“文本指(zhi)令 + 編(bian)輯后參考幀”,以視覺(jue)引(yin)導作(zuo)為“腳手架”,幫(bang)助(zhu)模型理解編(bian)輯目(mu)標(biao);

· 中(zhong)間(jian)階段:逐步(bu)降低參考幀(zhen)的輸入(ru)概(gai)率(退火策略),迫使模型依賴文本指(zhi)令;

· 最終階(jie)段:完全(quan)移除參考(kao)幀(zhen),模型實現純(chun)指令驅動編輯(ji)。

?訓練目標?:采用流匹配(FlowMatching)損失

image.png

5.研究成果

研究通過定(ding)量比較、用戶研究和定(ding)性(xing)分(fen)析驗證了方法的有效性(xing)。

?定量結果?:在(zai)(zai)CLIP-T(指(zhi)令跟隨)、CLIP-F(時間(jian)一致性(xing))和 VLM 評(ping)分等(deng)自動指(zhi)標(biao)上,本(ben)文(wen)提出的 Editto 模型均顯(xian)著優于現(xian)有方法。用戶研究也顯(xian)示,在(zai)(zai)指(zhi)令跟隨準確(que)性(xing)、時間(jian)一致性(xing)和整體質量方面,Editto 獲得了最(zui)高的用戶偏好。

?定性結果?:如圖5 所示,對于復雜的(de)風格(ge)化轉換(huan)和(he)局部屬性(xing)編輯(ji),Editto 能生成(cheng)視覺上更(geng)優、更(geng)符合指令要求(qiu)且時間一(yi)致性(xing)更(geng)好的(de)結果,而基(ji)線方法則容易(yi)出(chu)現模糊、不一(yi)致或編輯(ji)不準確的(de)問題。

?附加結果與消融研究?:研究還展示了模型從合成數據到真實領域的轉換能力,并且通過消融實驗證實了大規模訓練數據和模態課程學習策略對于模型性能提升的關鍵作用。
image.png

6.總結與展望

l 本文(wen)通過Ditto 框(kuang)架系(xi)統(tong)性解決(jue)了指(zhi)令驅動視(shi)頻編輯(ji)的“數據稀缺”問題:該框(kuang)架融合(he)圖像(xiang)編輯(ji)先驗與高效視(shi)頻生(sheng)成,結合(he)自動化質量控制,實現“低(di)成本-高質量-可擴展”的數據生(sheng)產,最終構建 Ditto-1M 數據集(ji);

l 基于Ditto-1M 訓練的(de) Editto 模型,通過模態課程學習橋接視覺(jue)與文本模態,在指令(ling)跟隨(sui)、時間一致性、視覺(jue)質量(liang)(liang)上(shang)建立(li)新(xin) SOTA,驗證了(le)“高質量(liang)(liang)數據 + 合理訓練策略”對視頻編輯任(ren)務的(de)核(he)心價值。

【02 論文原文閱讀】

您可以跳轉到Lab4AI 平(ping)臺上去閱(yue)讀論文(wen)原(yuan)文(wen)。

Lab4AI大模型實驗室已經提供???論文?,閱讀鏈接:


?文末點擊閱讀原文?,即可跳轉至對應論文頁面。目前,論文的復現工作還在招募中,歡迎各位感興趣的朋友報名參與復現創作,我們提供一定額度的H800 算力作為獎勵。
image.png
·Lab4AI.cn覆蓋全周期科研支撐平臺,提供論文速遞、AI翻譯和AI導讀工具輔助論文閱讀;
·支持投稿論文復現和Github項目復現,動手復現感興趣的論文;
·論文復現完成后,您可基于您的思路和想法,開啟論文創新與成果轉化。
image.png
本文由AI 深度解(jie)讀(du),轉載請(qing)聯系授權(quan)。關注“大(da)模型實驗(yan)室 Lab4AI”,第一時間獲取前(qian)沿 AI 技術解(jie)析!

posted @ 2025-10-27 17:40  Lab4AI大模型實驗室  閱讀(123)  評論(0)    收藏  舉報