欧美在线专区-欧美在线伊人-欧美在线一区二区三区欧美-欧美在线一区二区三区-pornodoxxx中国妞-pornodoldoo欧美另类

position>home>sport

一拖一拽小貓“活了”,Netflix 等噪聲扭曲算法讓運動控制更簡單

在視頻擴散生成領域,活了如何精準操控視頻中的拖拽運動細節而又不犧牲畫面質量,一直是小貓研究者共同追逐的目標。

一拖一拽小貓“活了”,Netflix 等噪聲扭曲算法讓運動控制更簡單

來自 Neflix、等動控Stony Brook 大學等機構的噪聲制更研究人員創新性地提出通過結構化的潛在噪聲采樣控制運動

實現方法很簡單,扭曲只要對訓練視頻做預處理,算法生成結構化噪聲。讓運這一過程不涉及擴散模型的簡單設計,無需改變其架構和訓練流程。活了

研究提出了一種全新的拖拽噪聲扭曲算法,速度超快,小貓能實時運行。等動控它用光流場推導的噪聲制更扭曲噪聲,取代隨機的扭曲時序高斯噪聲,同時保持了空間高斯性。由于算法高效,能用扭曲噪聲以極小的成本微調視頻擴散基礎模型

這為用戶提供了全面的運動控制方案,可用于局部物體運動控制、全局攝像機運動控制以及運動遷移等場景。

此外,算法兼顧了扭曲噪聲的時序一致性和空間高斯性,既能保證每幀畫面的像素質量,又能有效控制運動。

論文鏈接:https://arxiv.org/pdf/2501.08331

本研究的貢獻如下:

  • 創新的視頻擴散模型解決方案:提出一種簡單新穎的方法,將運動控制轉化為可用于噪聲變形的流場,在潛在空間采樣時能直接使用。它不僅能與任意視頻擴散基礎模型搭配,還可和其他控制方式協同使用。

  • 高效的噪聲變形算法:研發出高效的噪聲變形算法,它既能保持空間高斯性,又能追蹤跨幀的時間運動流。這讓微調運動可控的視頻擴散模型時,花費的成本最小,操作也更方便。

實驗和用戶研究充分驗證了該方法在各類運動控制應用中的優勢。這些應用涵蓋局部物體運動控制、運動傳遞到新場景、基于參考的全局相機運動控制等。在像素質量、可控性、時間連貫性以及用戶主觀偏好等方面,表現十分優異。

Go-with-the-Flow

當前的視頻擴散模型存在局限性,研究者提出了一種創新且簡單的方法,旨在把運動控制當作結構化組件,融入到視頻擴散模型潛在空間的無序狀態中。

具體實現方式是關聯潛在噪聲的時間分布。

先從二維高斯噪聲片入手,把它和根據訓練視頻樣本提取的光流場算出來的扭曲噪聲片,按照時間順序連接起來。下圖清晰展示了該方法的流程。

本文提出創新的噪聲扭曲算法,運行速度極快,能夠實時運行。

傳統方法需從初始幀起,對每一幀都進行一系列復雜的扭曲操作,而本文的算法則通過在連續幀之間迭代扭曲噪聲來實現目標。

具體來說,研究者在像素層面精準地追蹤噪聲和光流密度,依據前向、后向光流,計算畫面的擴展與收縮變化,以此來確定噪聲的扭曲方式。

同時,結合 HIWYN 提出的條件白噪聲采樣方法,保證算法在運行過程中始終維持高斯性。

在視頻擴散推理階段,本文提出的方法優勢明顯,能依據不同運動類型,自動調整噪聲變形,為多種運動控制應用提供一站式解決方案。

  • 局部物體運動控制:當用戶想要控制局部物體運動時,只需給出拖動信號,就能在物體輪廓范圍內靈活改變噪聲元素,讓局部物體按照需求運動。

  • 全局相機運動控制:針對全局相機運動的控制,復用參考視頻里的光流數據,對輸入噪聲進行扭曲處理,這樣就能在不同文本描述或初始幀條件下,重新生成視頻。

  • 任意運動傳遞:進行任意運動傳遞時,運動表達方式不再局限于常見光流,還包括 3D 渲染引擎生成的光流、深度變形等形式。

Go-with-the-Flow 主要由兩部分組成:噪聲扭曲算法和視頻擴散微調

噪聲扭曲算法運行時,和擴散模型的訓練流程互不干擾。研究團隊利用這個算法生成噪聲模式,再用這些模式去訓練擴散模型。

本研究中的運動控制完全基于噪聲初始化,在視頻擴散模型中沒有添加任何額外參數,這樣既能簡化模型結構,又能提高運行效率。

HIWYN 提出將噪聲扭曲應用于圖像擴散模型的設想。受此啟發,研究團隊發現了扭曲噪聲的新用法,就是把它作為視頻生成模型的運動控制條件。

研究團隊使用由大量視頻和扭曲噪聲對構成的數據集,對視頻擴散模型進行微調。經過這樣的處理,在推理階段就能很好地控制視頻里的運動了。

噪聲扭曲算法

為了便于進行大規模噪聲扭曲操作,研究團隊研發出一種快速噪聲扭曲算法。

這個算法是逐幀處理噪聲的,只需要存儲前一幀噪聲(尺寸是 H×W×C)和每個像素的光流密度值矩陣(尺寸為 H×W),這里的密度值能體現特定區域中噪聲的壓縮程度。

HIWYN 算法在運行時,需要進行耗時的多邊形光柵化和每個像素的上采樣操作。

新算法直接根據光流追蹤幀與幀之間畫面的擴展和收縮情況,全程只用到像素級別的操作,這些操作還很容易實現并行處理,大大提高了效率。

新算法和 HIWYN 算法一樣,都能保證噪聲的高斯性。

下一幀噪聲扭曲

噪聲扭曲算法通過迭代方式來計算噪聲,某一幀的噪聲計算僅取決于前一幀的狀態。

假設每幀視頻的尺寸是 H×W,用

代表一個高為 H、寬為 W 的二維矩陣。

已知前一幀的噪聲 q 和流密度

,同時知道正向流 f 和反向流 f′:

,基于這些條件,算法就能算出下一幀的噪聲 q′和流密度

,q′(或 p′)與前一幀的 q(或 p)通過流在時間上建立起關聯。

本文的算法結合了擴展和收縮兩種動態機制。

當視頻里某個區域放大,或者有物體朝著相機移動時,就會觸發擴展機制。在這種情況下,當前幀的一個噪聲像素,會在下一幀中對應一個或多個噪聲像素,這就是擴展。

在收縮時,研究者借鑒了拉格朗日流體動力學的思路,把噪聲像素想象成沿著前向光流 f 移動的粒子。

這些粒子移動后,畫面中往往會留下空白區域。對于前向光流 f 沒有覆蓋到的區域,就利用反向光流 f' 拉回一個噪聲像素,再用擴展過程中算好的噪聲去填充這些空白。

此外,為了長時間維持噪聲分布的正確性,研究團隊借助密度值,來記錄特定區域內噪聲像素的聚集數量。

在收縮情形下,當這些噪聲像素與附近其他粒子混合時,密度較高的粒子會有更大的權重。

為了同時處理好擴展和收縮這兩種情況,研究者構建了一個二分圖 G。圖里的邊表明了噪聲和密度從前一幀傳遞到下一幀的方式。

在綜合考慮圖中各邊的作用,生成下一幀噪聲 q' 時,依據光流密度對噪聲進行縮放,以此確保原始幀的分布特性能夠得以保留。

同時計算擴展和收縮的情況,避免它們相互干擾,就能確保最終輸出的結果符合完美的高斯分布。

實驗結果

為了驗證方案的有效性,研究團隊開展了大量實驗及用戶調研。結果表明,在保持運動一致性和針對同一情境渲染不同的運動效果方面,該方案表現十分出色。

從實驗數據和用戶反饋可知,本方案在像素畫面質量、運動控制精準度、與文本描述的契合度、視頻時間連貫性以及用戶喜好程度等方面,都具有顯著優勢。

用 Moran's I 指標衡量空間相關性,K-S 檢驗評估正態性。選擇多種基準進行對比,包括固定獨立采樣噪聲、插值方法及其他噪聲扭曲算法。

可以看到,本文提出的方法在 Moran's I 指標和 K-S 檢驗中表現良好,表明無空間自相關性且符合正態分布;而雙線性、雙三次和最近鄰插值方法未能保持高斯性,存在空間自相關性且偏離正態分布。

本文的方法在保持空間高斯性上成效顯著,且在噪聲生成效率和實際應用方面有很強的可行性。

實驗結果表明,本文的方法效率極高,比并行的 InfRes 運行更快,相比 HIWYN,速度提升了 26 倍,這得益于算法的線性時間復雜度。

算法的效率比實時速度快了一個數量級,這說明在視頻擴散模型微調時動態應用噪聲扭曲是可行的。

為驗證噪聲扭曲算法有效性,將經不同方法扭曲的噪聲輸入到用于超分辨率和人像重光照的預訓練圖像擴散模型中,通過評估輸出視頻的質量和時間一致性。

結果顯示,本文的算法在時間一致性上比基線方法更出色,處理前景、背景和邊緣時穩定性更好。

在 DifFRelight 視頻重光照任務中評估噪聲扭曲方法。推理時,研究者從特定區域裁剪出畫面,并按照指定光照條件進行處理。本文的方法在圖像和時間指標上表現更好,能有效改進圖像擴散模型。

接下來聚焦視頻擴散中的局部對象運動控制。為評估模型控制能力,將其與 SG-I2V、MotionClone 和 DragAnything 三種基線方法對比。

現有方法在處理復雜局部運動時存在局限,SG-I2V 會誤判運動導致場景平移,DragAnything 缺乏一致性易失真,MotionClone 難以捕捉細微動態。

本文的模型在處理復雜運動時表現優異,能保持對象保真度和三維一致性。大量研究和評估證實了本文的方法在運動一致性、視覺保真度和整體真實感方面優勢顯著。

本文的方法同樣支持運動遷移和相機運動控制。

在 DAVIS 數據集的對象運動遷移中,運動保真度和視頻質量更好,生成視頻與真實視頻還原度高。

在相機運動控制上,在 DL3DV 和 WonderJourney 數據集以及深度扭曲實驗中表現出色。

在視頻首幀編輯能力上,能無縫融入新增對象并保留原始運動,明顯優于基線方法。

本研究提出了一種新穎的、速度快于實時的噪聲扭曲算法,它能將運動控制自然地融入視頻擴散噪聲采樣過程。

研究者用這種噪聲扭曲技術對視頻數據進行預處理,以開展視頻擴散微調,從而提供了一種通用且用戶友好的范式,可應用于各類運動可控的視頻生成場景。

參考資料:

  • https://x.com/EHuanglu/status/1882014762281865379

  • https://x.com/natanielruizg/status/1882121096859890140

  • https://eyeline-research.github.io/Go-with-the-Flow/

本文來自微信公眾號:新智元(ID:AI_era),原標題《一拖一拽,小貓活了!Netflix 等新作爆火,噪聲扭曲算法讓運動控制更簡單》

Popular articles

主站蜘蛛池模板: 又大又爽又湿又紧a视频| 国产呦系列呦| www成人在线观看| 中国陆超帅精瘦ktv直男少爷| 蜜桃精品| 大胸小子bd在线观看| 日本三级免费| 成人免费福利电影| 永久免费bbbbbb视频| 日本哺乳期xxxx| 欧美一级视| 日本三人交xxx69视频| 欧美黑人xxxx| 午夜dj在线观看免费视频 | 男人猛桶女人| 女生张开腿给男生捅| 干b视频| 日本一本高清视频| 中文字幕永久在线视频| 天堂网www中文在线| 美国式的禁忌19| 欧美乱插| aaaaaa级特色特黄的毛片| 性一交一乱一伦一| 恸哭の女教师大桥未久| 美女把腿扒开让男人桶爽国产| 好男人社区www在线观看| 欧美高清hd| 足本玉蒲团在线观看| 日本视频免费高清一本18| 全彩无翼口工漫画大全3d| 天堂mv免费mv在线mv观看| 久久久国产99久久国产久| 大胸女大学生| 特级毛片aaaaaa蜜桃| 日韩黄色大全| 韩国黄色网| 国产精品一区二区av| 在线网站你懂得| 欧美国产日韩久久mv| 欧美黄色片免费观看|