大模型在生成高質(zhì)量圖像方面表現(xiàn)出色,但在生成視頻任務(wù)中,經(jīng)常會(huì)面臨視頻不連貫、圖像模糊、掉幀等問(wèn)題。
這主要是因?yàn)樯墒匠闃舆^(guò)程中的隨機(jī)性,會(huì)在視頻序列中引入無(wú)法預(yù)測(cè)的幀跳動(dòng)。同時(shí)現(xiàn)有方法僅考慮了局部視頻片段的時(shí)空一致性,無(wú)法保證整個(gè)長(zhǎng)視頻的整體連貫性。
為了解決這些難題,新加坡南洋理工大學(xué)的研究人員開(kāi)發(fā)了一種Upscale-A-Video框架,無(wú)需任何訓(xùn)練便能快速集成到大模型中,提供視頻超分辨率、去噪、還原等強(qiáng)大功能。
論文地址:https://arxiv.org/abs/2312.06640
開(kāi)源地址:https://github.com/sczhou/Upscale-A-Video
項(xiàng)目地址:https://shangchenzhou.com/projects/upscale-a-video/
Upscale-A-Video功能展示
Upscale-A-Video主要借鑒了圖像模型中的擴(kuò)散方法,設(shè)計(jì)了一種無(wú)需大規(guī)模訓(xùn)練即可快速遷移的框架。
該框架融合了局部和全局兩種策略來(lái)維持時(shí)間的一致性。局部層,模型通過(guò) 3D 卷積和時(shí)序注意力層增強(qiáng)特征提取網(wǎng)絡(luò)U-Net在短視頻片段內(nèi)的一致性。
全局層,則通過(guò)光流指導(dǎo)的循環(huán)潛碼傳播功能,提供跨視頻片段強(qiáng)化更長(zhǎng)時(shí)間尺度下的連貫性。
除了時(shí)間一致性,Upscale-A-Video還可以通過(guò)文本提示指導(dǎo)細(xì)節(jié)紋理的生成,不同的提示詞可產(chǎn)生不同風(fēng)格、質(zhì)量。
時(shí)序U-Net
U-Net作為特征提取網(wǎng)絡(luò),對(duì)視頻質(zhì)量起決定性作用。傳統(tǒng)只考慮空間信息的U-Net在處理視頻時(shí)往往會(huì)引入高頻誤差,表現(xiàn)為抖動(dòng)和閃爍。
Upscale-A-Video通過(guò)向U-Net中插入3D卷積塊和時(shí)序自注意力層,增強(qiáng)其對(duì)時(shí)間維度的建模能力。這使U-Net可以學(xué)習(xí)視頻數(shù)據(jù)中幀與幀之間的依賴,從而在局部序列內(nèi)實(shí)現(xiàn)一致的超分辨重建。
另一方面,研究人員選擇固定U-Net中的空間層參數(shù),只對(duì)新增時(shí)序?qū)舆M(jìn)行調(diào)優(yōu)。這種策略的優(yōu)點(diǎn)是可以避免從頭大規(guī)模預(yù)訓(xùn)練,充分利用圖像模型中提取的豐富特征。同時(shí)也縮短了網(wǎng)絡(luò)收斂的時(shí)間,起到事半功倍的效果。
循環(huán)潛碼
時(shí)序U-Net的作用范圍僅局限于短視頻片段,難以約束更長(zhǎng)序列的全局一致性。而視頻抖動(dòng)和質(zhì)量波動(dòng)往往都是長(zhǎng)時(shí)間范圍內(nèi)的現(xiàn)象。
為解決這一問(wèn)題,Upscale-A-Video設(shè)計(jì)了一個(gè)基于光流的循環(huán)潛碼傳播模塊。
該模塊可以在不增加訓(xùn)練參數(shù)的情況下,通過(guò)前向和后向傳播推斷所有幀的潛碼信息,有效擴(kuò)大模型感知的時(shí)間范圍。
具體來(lái)說(shuō),該模塊利用預(yù)先估計(jì)的光流場(chǎng),進(jìn)行逐幀傳播與融合。它根據(jù)光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區(qū)域進(jìn)行特征傳播。
而超出閾值的區(qū)域則保留當(dāng)前幀信息。這種混合融合策略,既利用了光流建模的長(zhǎng)期信息,又避免了傳播錯(cuò)誤的累積。
文本提示增強(qiáng)指導(dǎo)
Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據(jù)實(shí)際情況,引導(dǎo)模型生成不同風(fēng)格和質(zhì)量的結(jié)果。
文本提示可以指導(dǎo)模型合成更逼真的細(xì)節(jié),如動(dòng)物皮毛、油畫(huà)筆觸等。噪聲水平的調(diào)整也提供了在還原與生成間權(quán)衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補(bǔ)充更豐富的細(xì)節(jié)。
這種可控制的生成能力進(jìn)一步增強(qiáng)了Upscale-A-Video處理復(fù)雜真實(shí)場(chǎng)景的魯棒性
實(shí)驗(yàn)數(shù)據(jù)
研究人員從定量和定性兩個(gè)方面全面驗(yàn)證了Upscale-A-Video的性能。在四個(gè)合成低質(zhì)量視頻基準(zhǔn)上,皆取得了最高的峰值信號(hào)噪聲比和最低的流式感知損失。
流式驗(yàn)證集和AI生成視頻上, Upscale-A-Video的非參考畫(huà)質(zhì)評(píng)分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質(zhì)量上的優(yōu)勢(shì)。
從生成效果對(duì)比來(lái)看,Upscale-A-Video重建的視頻展現(xiàn)了更高實(shí)際分辨率下的細(xì)節(jié)層次;運(yùn)動(dòng)軌跡更加連貫自然,沒(méi)有明顯的抖動(dòng)和裂縫。這得益于強(qiáng)大的擴(kuò)散先驗(yàn)和時(shí)空一致性優(yōu)化。
相比之下,卷積神經(jīng)網(wǎng)絡(luò)和擴(kuò)散等方法會(huì)出現(xiàn)模糊不清,失真等效果,無(wú)法達(dá)到同等水準(zhǔn)。
本文素材來(lái)源Upscale-A-Video論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 生成超清分辨率視頻,南洋理工開(kāi)源Upscale-A-Video
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)