文本領(lǐng)域的ChatGPT,畫圖領(lǐng)域的Midjourney都展現(xiàn)出了大模型強大的一面,雖然視頻領(lǐng)域有Gen-2這樣的領(lǐng)導(dǎo)者,但現(xiàn)有的視頻擴散模型在生成的效果中仍然存在時間一致性不足和不自然的動態(tài)效果。
南洋理工大學(xué)S實驗室的研究人員發(fā)現(xiàn),擴散模型訓(xùn)練和推理階段初始噪聲的頻率分布不均勻,是導(dǎo)致生成視頻質(zhì)量下降的重要原因之一。因此,開發(fā)了創(chuàng)新性文生視頻模型FreeInit。
FreeInit的核心技術(shù)概念是通過重新初始化噪聲,來彌合訓(xùn)練和推理之間的差距。研究人員提出了一種創(chuàng)新性的推理采樣策略,通過迭代地改進初始噪聲的空時低頻分量,從而提高時間的一致性。
為驗證FreeInit的有效性,研究人員在多個文到視頻生成模型上進行了大量實驗,包括AnimateDiff、ModelScope和VideoCrafter等。結(jié)果顯示,FreeInit可以使這些模型的時間一致性指標(biāo)提高2.92—8.62。
開源地址:https://github.com/tianxingwu/freeinit
論文地址:https://arxiv.org/abs/2312.07537v1
為了找出文生視頻模型效果不佳的原因,研究人員通過對多個模型的信噪比進行檢測,驚奇地發(fā)現(xiàn),視頻擴散模型的推理初始化噪聲中,低頻信息很難被完全移除。
這與高斯白噪聲初始化存在明顯的分布差距。這種低頻信息殘留,可能就是導(dǎo)致生成視頻效果的時間線,不連貫的主要原因。
為了驗證這個想法,研究人員設(shè)計了一個創(chuàng)造性的測試實驗:他們收集真實視頻,使其經(jīng)過擴散模型的正向推理,得到具有強相關(guān)性的噪聲;然后再用這個噪聲作為推理的初始化,繼續(xù)生成視頻。
結(jié)果發(fā)現(xiàn),與高斯噪聲相比,相關(guān)噪聲生成的視頻時間一致性和細節(jié)清晰度明顯增強。這充分證明了低頻信息對推理質(zhì)量的關(guān)鍵影響,也證實了訓(xùn)練推理初始化的差距確實是重要原因。
而FreeInit的創(chuàng)新點在于,在模型推理的過程中可精煉低頻信息,逐步彌合訓(xùn)練推理的差距,使初始化噪聲分布逼近相關(guān)性更強的訓(xùn)練噪聲,從而生成時間一致性更好的視頻。
采樣、擴散模塊
FreeInit在推理的第一步,先初始化獨立高斯噪聲,然后通過經(jīng)典的DDIM離散采樣策略,采樣生成初步的視頻潛碼。
通過利用擴散模型已有的去噪功能,從完全隨機的噪聲中采樣出較為清晰的視頻潛碼。
接著獲取上一步生成視頻潛碼的帶有時間相關(guān)性的噪聲版本,將生成的視頻潛碼通過原始的高斯噪聲進行正向擴散過程,使其重新含有低頻時間相關(guān)信息。
這里需要復(fù)用DDIM采樣中使用的高斯噪聲,避免引入過多額外隨機性。最終得到低頻信息較豐富的噪聲潛碼。
噪聲重新初始化
將得到的含低頻相關(guān)性噪聲與新的高斯噪聲高頻部分結(jié)合,得到重新初始化的噪聲,并為下一輪采樣的初始提供輸入。
這里采用頻域分解的方式:先通過3D FFT變換噪聲潛碼到頻域,然后與新的高斯噪聲通過低通濾波器和高通濾波器分別提取低頻和高頻部分后拼接。該模塊在保留低頻信息的同時,也為高頻部分引入額外靈活性。
將上述多個模塊進行聯(lián)合、重組,便形成了一次完整的采樣優(yōu)化過程。研究者表示,進行多次重復(fù)迭代,可以進一步累積提升低頻信息質(zhì)量,逐步彌合訓(xùn)練和推理的初始化差距,最終讓生成視頻質(zhì)量不斷改善,時間一致性也越來越好。
本文素材來源FreeInit論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 創(chuàng)新性文生視頻模型,南洋理工開源FreeInit
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國