中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

【每日Arxiv熱文】北大新(xin)框(kuang)架 Edit-R1 炸場!破解圖像編輯 3 大難題,雙榜刷 SOTA

【01 論文概述】

論文標題:

Uniworld-V2:ReinforceImageEditingwithDiffusionNegative-awareFinetuningandMLLMImplicitFeedback

作者團隊:北京大學
發布時間:2025 年 10 月 21 日
論文鏈接:

Lab4AI 大模(mo)型(xing)實驗室(shi)鏈接:

1.研究背景

當前基于指令的(de)圖像編輯雖借助擴散(san)模型取得進展,但仍面臨(lin)三大核心挑戰:

l 監(jian)督微調(SFT)的固有缺陷:現有模型多依賴 SFT 訓練,易過(guo)擬合(he)標注(zhu)模式,導致(zhi)泛(fan)化能力差(無法突(tu)破訓練分布)、可控性不足(忽略復雜(za)指(zhi)令,僅(jin)重構輸入),且依賴大規模但(dan)多樣性低的數據集(ji),進一步削(xue)弱跨任務的指(zhi)令保真度。

l 強化學習(xi)(RL)在擴散(san)模型中的(de)應用(yong)瓶(ping)頸:RL 雖為模型對齊(qi)人類意(yi)圖的(de)潛(qian)在方向,但現有策(ce)略優化方法(如基于似然估計)存在系統偏差,且(qie)一階 SDE 采樣(yang)器需在“軌跡多樣(yang)性”與“生成(cheng)質(zhi)量”間(jian)權衡,難以(yi)滿足圖像編(bian)輯對高保真和(he)多樣(yang)化探索的(de)雙重需求。

l 通用獎勵模型的缺失:圖像編輯指令和任務具有多樣性,導致缺乏統一獎勵模型。MLLM 雖適合主觀評估,但現有 MLLM 評分方法存在缺陷:基于 Chain-of-Thought(CoT)的方法易引入暴露偏差且計算成本高,基于采樣的方法信號稀疏,而領域微調需復雜數據集以避免偏差和災難性遺忘,成本高昂。
image.png

2.研究目的

針對上述挑戰,本(ben)研究旨(zhi)在:

l 突破SFT 范式的泛化性與(yu)可控性限制,解決擴散模型結(jie)合 RL 時的策略優化偏差問題;

l 構建通用(yong)、低(di)成(cheng)本、低(di)幻(huan)覺(jue)的獎(jiang)勵(li)模型(xing),避(bi)免依賴復雜數據集或引入(ru)額外偏差;

l 提出(chu)一(yi)套(tao)高效(xiao)的訓練后優化框(kuang)架(Edit-R1),提升不同基礎擴散(san)模型(如 UniWorld-V2、Qwen-Image-Edit、FLUX.1-Kontext)在指令圖像(xiang)編輯任務中的性(xing)能(neng)與(yu)泛化能(neng)力,同時保證模型無關性(xing)(model-agnostic)。通過(guo)策略優化方法(fa)直接(jie)對齊生成過(guo)程與(yu)人類意圖,避免對領(ling)域特(te)定獎勵模型的依賴(lai)。

3.核心貢獻

l 提出Edit-R1 訓練(lian)后優化框架:整合兩種關鍵技術(shu)——DiffusionNegative-awareFinetuning(DiffusionNFT,一(yi)種與(yu)流匹配前向(xiang)過(guo)程一(yi)致(zhi)的無似(si)然策略優化方法(fa),支(zhi)持(chi)黑箱采樣器、decouple 訓練(lian)與(yu)采樣)和基于預(yu)訓練(lian) MLLM 的無訓練(lian)獎勵(li)模型,實(shi)現擴散(san)模型的高效微調。

l 驗證獎勵信號的人(ren)(ren)類對齊性:所設計的MLLM 獎勵信號(非 CoT+logit-based 評分)無需訓(xun)練或(huo)復雜推理(li),能提供與人(ren)(ren)類偏好高(gao)度(du)對齊的反饋(kui),兼具可靠(kao)性、低(di)(di)成本與低(di)(di)幻覺特性,有效穩(wen)定(ding)訓(xun)練過程。

實(shi)(shi)證性能提升(sheng)與泛化(hua)能力:實(shi)(shi)驗表明,Edit-R1 可(ke)(ke)顯著(zhu)提升(sheng)多種基礎模(mo)型(xing)性能:在 ImgEdit 和(he) GEdit-Bench 基準上,UniWorld-V2 取得 SOTA 結(jie)果(分別為(wei) 4.49、7.83),FLUX.1-Kontext[Dev]微調后(hou)超(chao)越(yue)其 Pro 版本,Qwen-Image-Edit[2509]成為(wei)開源(yuan)模(mo)型(xing)中的 SOTA;同時框架具有模(mo)型(xing)無(wu)關性,可(ke)(ke)適配不同基礎模(mo)型(xing)。

4. 研究方法

本研(yan)究的核心(xin)方法圍(wei)繞Edit-R1 框架展開,包含三大核心(xin)組(zu)件與(yu)完整流程:

l 策略(lve)(lve)優(you)化:采用DiffusionNFT,一(yi)種基于(yu)流匹配前(qian)向過程的無似然策略(lve)(lve)優(you)化方法,支(zhi)持高(gao)階(jie)采樣器并(bing)避免(mian)偏(pian)差。

l 獎勵設計:

使用MLLM 的非 CoTlogit 評分(fen)(fen)機制,直接(jie)計(ji)算得分(fen)(fen)令(ling)牌的期望值作為獎勵(li)。

通(tong)過(guo)任務定制(zhi)化提示詞(基礎指令(ling)+ 任務指令(ling))實(shi)現(xian)細粒度評估。

l 訓練流程:

??采樣:利用 DPM-Solver 快速(su)生成候(hou)選圖像組。

??評分:MLLM 對編輯結果進行(xing)隱式反(fan)饋(kui)打分。

??優化:通過 DiffusionNFT 損失函數更新模型,結合組過濾機制剔除低方差高均值樣本。
image.png

5.研究結果

5.1 基準測試性能

l ImgEdit 基準:UniWorld-V2 達到 SOTA(4.49 分),Qwen-Image-Edit 提升(sheng)至 4.48 分,超(chao)越閉源模型(如 GPT-Image-1)。

l GEdit-Bench 基準:UniWorld-V2 取得(de) 7.83 分,顯著優(you)于基線(xian)模(mo)型。

l 泛(fan)化能力:在域(yu)外數據上(如(ru)GEdit-Bench),所有(you)基礎(chu)模型均獲得穩(wen)定提(ti)升。

5.2 人類偏好評估

用戶(hu)研究(jiu)表明,優化后的模型在指令(ling)遵循(xun)和圖(tu)像(xiang)質量上更受青睞。微調后的UniWorld-FLUX.1-Kontext 在“指令(ling)對齊”維度(du)顯著優于 FLUX.1-Kontext[Dev]與 Pro 版本,整體偏好(hao)度(du)更高(圖(tu) 6)。

5.3 消融實驗結果

策(ce)略優化方法對比:在FLUX.1-Kontext[Dev]上,DiffusionNFT 在 ImgEdit 基準的性(xing)能顯著優于 Flow-GRPO 及 Flow-GRPO+LocalStd(圖 7)。

核心組件貢獻:Qwen-Image-Edit[2509]上,僅 DiffusionNFT(7BMLLM)提升至 7.66,32BMLLM 進一步提升至 7.74,加入組過濾后達 7.76(表 3)。
image.png

6.總結與展望

本研究(jiu)針對指(zhi)令圖像(xiang)編輯的泛化(hua)性、可控性及獎勵模型(xing)難題(ti),提出Edit-R1 框(kuang)架:通過 DiffusionNFT 實現無似然策略優(you)化(hua),結合無訓(xun)練(lian)(lian)的 MLLM 獎勵模型(xing)(非 CoT+logit-based),解(jie)決了(le) SFT 的過擬合與(yu) RL 策略優(you)化(hua)的偏差問題(ti)。該框(kuang)架在 ImgEdit、GEdit-Bench 基準上取得(de) SOTA,可適配多種基礎(chu)模型(xing),且獎勵信號與(yu)人類偏好高度對齊,為指(zhi)令圖像(xiang)編輯提供了(le)高效、通用的訓(xun)練(lian)(lian)后優(you)化(hua)方案。

【02 論文原文閱讀】

您可以跳(tiao)轉到Lab4AI 平臺上(shang)去閱讀論文(wen)原文(wen)。

Lab4AI大模型實驗室已經提供???論文?,閱讀鏈接:

?文末點擊閱讀原文?,即可跳轉至對應論文頁面。目前,論文的復現工作還在招募中,歡迎各位感興趣的朋友報名參與復現創作,我們提供一定額度的H800 算力作為獎勵。
image.png
·Lab4AI.cn覆蓋(gai)全(quan)周期(qi)科研支撐平臺,提供論文速遞(di)、AI翻譯和AI導(dao)讀(du)(du)工具輔助(zhu)論文閱讀(du)(du);

·支(zhi)持投稿論(lun)文復(fu)(fu)現和Github項目復(fu)(fu)現,動手復(fu)(fu)現感(gan)興趣的論(lun)文;

·論文復現完成后,您可基于您的思路和想法,開啟論文創新與成果轉化。
image.png
本文由AI 深(shen)度解讀,轉載請(qing)聯系授權。關注“大模型(xing)實驗(yan)室 Lab4AI”,第一時(shi)間獲取前沿 AI 技術解析!

posted @ 2025-10-29 11:37  Lab4AI大模型實驗室  閱讀(129)  評論(0)    收藏  舉報