一本色道无码道DVD在线观看:汁,免费人成在线

大模型在生成高質(zhì)量圖像方面表現(xiàn)出色,但在生成視頻任務(wù)中，經(jīng)常會(huì)面臨視頻不連貫、圖像模糊、掉幀等問(wèn)題。

這主要是因?yàn)樯墒匠闃舆^(guò)程中的隨機(jī)性,會(huì)在視頻序列中引入無(wú)法預(yù)測(cè)的幀跳動(dòng)。同時(shí)現(xiàn)有方法僅考慮了局部視頻片段的時(shí)空一致性,無(wú)法保證整個(gè)長(zhǎng)視頻的整體連貫性。

為了解決這些難題，新加坡南洋理工大學(xué)的研究人員開(kāi)發(fā)了一種Upscale-A-Video框架，無(wú)需任何訓(xùn)練便能快速集成到大模型中，提供視頻超分辨率、去噪、還原等強(qiáng)大功能。

論文地址：https://arxiv.org/abs/2312.06640

開(kāi)源地址：https://github.com/sczhou/Upscale-A-Video

項(xiàng)目地址：https://shangchenzhou.com/projects/upscale-a-video/

Upscale-A-Video功能展示

Upscale-A-Video主要借鑒了圖像模型中的擴(kuò)散方法,設(shè)計(jì)了一種無(wú)需大規(guī)模訓(xùn)練即可快速遷移的框架。

該框架融合了局部和全局兩種策略來(lái)維持時(shí)間的一致性。局部層,模型通過(guò) 3D 卷積和時(shí)序注意力層增強(qiáng)特征提取網(wǎng)絡(luò)U-Net在短視頻片段內(nèi)的一致性。

全局層,則通過(guò)光流指導(dǎo)的循環(huán)潛碼傳播功能,提供跨視頻片段強(qiáng)化更長(zhǎng)時(shí)間尺度下的連貫性。

除了時(shí)間一致性,Upscale-A-Video還可以通過(guò)文本提示指導(dǎo)細(xì)節(jié)紋理的生成,不同的提示詞可產(chǎn)生不同風(fēng)格、質(zhì)量。

時(shí)序U-Net

U-Net作為特征提取網(wǎng)絡(luò),對(duì)視頻質(zhì)量起決定性作用。傳統(tǒng)只考慮空間信息的U-Net在處理視頻時(shí)往往會(huì)引入高頻誤差,表現(xiàn)為抖動(dòng)和閃爍。

Upscale-A-Video通過(guò)向U-Net中插入3D卷積塊和時(shí)序自注意力層,增強(qiáng)其對(duì)時(shí)間維度的建模能力。這使U-Net可以學(xué)習(xí)視頻數(shù)據(jù)中幀與幀之間的依賴,從而在局部序列內(nèi)實(shí)現(xiàn)一致的超分辨重建。

另一方面,研究人員選擇固定U-Net中的空間層參數(shù),只對(duì)新增時(shí)序?qū)舆M(jìn)行調(diào)優(yōu)。這種策略的優(yōu)點(diǎn)是可以避免從頭大規(guī)模預(yù)訓(xùn)練,充分利用圖像模型中提取的豐富特征。同時(shí)也縮短了網(wǎng)絡(luò)收斂的時(shí)間,起到事半功倍的效果。

循環(huán)潛碼

時(shí)序U-Net的作用范圍僅局限于短視頻片段,難以約束更長(zhǎng)序列的全局一致性。而視頻抖動(dòng)和質(zhì)量波動(dòng)往往都是長(zhǎng)時(shí)間范圍內(nèi)的現(xiàn)象。

為解決這一問(wèn)題,Upscale-A-Video設(shè)計(jì)了一個(gè)基于光流的循環(huán)潛碼傳播模塊。

該模塊可以在不增加訓(xùn)練參數(shù)的情況下,通過(guò)前向和后向傳播推斷所有幀的潛碼信息,有效擴(kuò)大模型感知的時(shí)間范圍。

具體來(lái)說(shuō),該模塊利用預(yù)先估計(jì)的光流場(chǎng),進(jìn)行逐幀傳播與融合。它根據(jù)光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區(qū)域進(jìn)行特征傳播。

而超出閾值的區(qū)域則保留當(dāng)前幀信息。這種混合融合策略,既利用了光流建模的長(zhǎng)期信息,又避免了傳播錯(cuò)誤的累積。

文本提示增強(qiáng)指導(dǎo)

Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據(jù)實(shí)際情況,引導(dǎo)模型生成不同風(fēng)格和質(zhì)量的結(jié)果。

文本提示可以指導(dǎo)模型合成更逼真的細(xì)節(jié),如動(dòng)物皮毛、油畫(huà)筆觸等。噪聲水平的調(diào)整也提供了在還原與生成間權(quán)衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補(bǔ)充更豐富的細(xì)節(jié)。

這種可控制的生成能力進(jìn)一步增強(qiáng)了Upscale-A-Video處理復(fù)雜真實(shí)場(chǎng)景的魯棒性

實(shí)驗(yàn)數(shù)據(jù)

研究人員從定量和定性兩個(gè)方面全面驗(yàn)證了Upscale-A-Video的性能。在四個(gè)合成低質(zhì)量視頻基準(zhǔn)上，皆取得了最高的峰值信號(hào)噪聲比和最低的流式感知損失。

流式驗(yàn)證集和AI生成視頻上, Upscale-A-Video的非參考畫(huà)質(zhì)評(píng)分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質(zhì)量上的優(yōu)勢(shì)。

從生成效果對(duì)比來(lái)看,Upscale-A-Video重建的視頻展現(xiàn)了更高實(shí)際分辨率下的細(xì)節(jié)層次;運(yùn)動(dòng)軌跡更加連貫自然,沒(méi)有明顯的抖動(dòng)和裂縫。這得益于強(qiáng)大的擴(kuò)散先驗(yàn)和時(shí)空一致性優(yōu)化。

相比之下,卷積神經(jīng)網(wǎng)絡(luò)和擴(kuò)散等方法會(huì)出現(xiàn)模糊不清，失真等效果，無(wú)法達(dá)到同等水準(zhǔn)。

本文素材來(lái)源Upscale-A-Video論文，如有侵權(quán)請(qǐng)聯(lián)系刪除

繼續(xù)閱讀：