與傳統(tǒng)模型不同的是,Lumiere采用了一種時(shí)空擴(kuò)散(Space-time)U-Net架構(gòu),可以在單次推理中生成整個(gè)視頻的所有時(shí)間段,能明顯增強(qiáng)生成視頻的動作連貫性,并大幅度提升時(shí)間的一致性。
此外,Lumiere為了解決空間超分辨率級聯(lián)模塊,在整個(gè)視頻的內(nèi)存需求過大的難題,使用了Multidiffusion方法,同時(shí)可以對生成的視頻質(zhì)量、連貫性進(jìn)行優(yōu)化。
論文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com
時(shí)空擴(kuò)散U-Net架構(gòu)
傳統(tǒng)的U-Net是一種常用于圖像分割任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),其特點(diǎn)是具有對稱的編碼器-解碼器,能夠在多個(gè)層次上捕獲上下文信息,并且能夠精確地定位圖像中的對象。
而時(shí)空擴(kuò)散U-Net是在時(shí)空維度上執(zhí)行下采樣和上采樣操作,以便在緊湊的時(shí)空表示中生成視頻。

下采樣的目的是減小特征圖的尺寸,同時(shí)增加特征圖的通道數(shù),以捕捉更豐富的特征。
上采樣則是通過插值以及將特征圖的尺寸恢復(fù)到原始輸入的大小,同時(shí)減少通道數(shù),以生成更細(xì)節(jié)的輸出。
時(shí)空擴(kuò)散U-Net的編碼器部分通過卷積和池化操作實(shí)現(xiàn)時(shí)空下采樣。卷積層用于提取特征,并逐漸減小特征圖的尺寸。

池化層則通過降采樣操作減小特征圖的空間尺寸,同時(shí)保留重要的特征信息。通過逐步堆疊這些下采樣模塊,編碼器可以逐漸提取出更高級別的抽象特征。
因此,Lumiere在時(shí)空擴(kuò)散U-Net架構(gòu)幫助下,能夠一次生成80幀、16幀/秒(相當(dāng)于5秒鐘)的視頻。并且與傳統(tǒng)方法相比,這種架構(gòu)顯著增強(qiáng)了生成視頻運(yùn)動的整體連貫性。
Multidiffusion優(yōu)化方法
Multidiffusion核心技術(shù)是通過在時(shí)間窗口內(nèi)進(jìn)行空間超分辨率計(jì)算,并將結(jié)果整合為整個(gè)視頻段的全局連貫解決方案。
具體來說,Multidiffusion通過將視頻序列分割成多個(gè)時(shí)間窗口,每個(gè)時(shí)間窗口內(nèi)進(jìn)行空間超分辨率計(jì)算。

這樣做的好處是,在每個(gè)時(shí)間窗口內(nèi)進(jìn)行計(jì)算可以減少內(nèi)存需求,因?yàn)槊總€(gè)時(shí)間窗口的大小相對較小。同時(shí),這種分割的方式也使得計(jì)算更加高效,并且能夠更好地處理長視頻序列。

在每個(gè)時(shí)間窗口內(nèi),Multidiffusion方法使用已經(jīng)生成的低分辨率視頻作為輸入,通過空間超分辨率級聯(lián)模塊生成高分辨率的視頻幀。
然后,通過引入擴(kuò)散算法,將每個(gè)時(shí)間窗口的結(jié)果進(jìn)行整合,形成整個(gè)視頻段的全局連貫解決方案。
這種整合過程考慮了時(shí)間窗口之間的關(guān)聯(lián)性,保證了視頻生成的連貫性和視覺一致性。
本文素材來源Lumiere論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 文本生成高清、連貫視頻,谷歌推出時(shí)空擴(kuò)散模型
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國