谷歌的研究人員推出了一款多模態(tài)擴散模型——VLOGGER。
用戶只需要向VLOGGER輸入圖像、語音,就能生成帶語音、豐富動作的人物視頻。VLOGGER基于擴散模型開發(fā)而成,并提出了一種全新的架構,將文本生成圖像模型與空間、時間控制相結合,提升視頻生成的逼真效果和豐富動作。
研究人員在HDTF、TalkingHead-1KH和MENTOR等多個數(shù)據(jù)集對VLOGGER進行了綜合測試。結果顯示,VLOGGER在視頻質量、物體還原性和時序一致性等方面表現(xiàn)出色,同時還能生成豐富的上半身和手勢動作。
技術報告:https://enriccorona.github.io/vlogger/paper.pdf
隨著數(shù)字化經(jīng)濟的飛速發(fā)展,各行業(yè)對虛擬數(shù)字人的需求越來越多。但要制作出逼真的人物動畫視頻需要大量的人工調整和修補才能獲得真實感,不然會出現(xiàn)動作缺失、肢體動作僵硬、五官不協(xié)調等問題。
VLOGGER模型的創(chuàng)新之處在于,提出了全新的多階段擴散模型架構:首先,通過使用隨機擴散模型,根據(jù)輸入語音生成對應的人體運動軌跡,包括表情、姿勢、視線和眨眼細節(jié)。
然后,使用創(chuàng)新的時空擴散架構,將生成的人體運動軌跡及參考圖像作為條件實現(xiàn)完整的人物視頻合成。
此外,VLOGGER無需針對每個新人物重新訓練模型,不依賴人臉檢測框選區(qū)域,而是直接生成完整目標圖像。更重要的是,VLOGGER考慮到了現(xiàn)實中復雜的交流場景,例如,可見軀干、不同身份等,這對正確合成有效交流的人物動作至關重要。
語音生成
第一階段,VLOGGER使用了Transformer的神經(jīng)網(wǎng)絡用于接收音頻波形輸入,并生成一系列3D面部表情和身體姿勢參數(shù),用于控制虛擬人物在視頻中的動作。
為了獲得逼真的運動效果,該模型利用了一種統(tǒng)計的3D人體模型,能夠精確捕捉面部表情、頭部運動、眼球轉動、眨眼以及手勢等細節(jié)。通過預測基于參考圖像的姿勢殘差,該模型可以針對特定身份生成個性化的運動序列。
為了與基于CNN的架構相兼容,該模型將預測的3D參數(shù)渲染為密集的2D表示,包括身體的語義區(qū)域掩碼和部分參考圖像的扭曲視圖。這些2D控制信號將在下一階段用于指導視頻生成過程。
人物生成
第二階段,VLOGGER在空間和時間上進行條件控制,以生成高質量、任意長度的視頻。該模塊接收了來自第一階段的2D控制信號作為輸入,并以參考圖像中的人物身份為條件,生成逼真的運動視頻幀序列。
VLOGGER基于成熟的文本到圖像擴散模型,并通過一種新穎的架構對其進行擴展,增加了時域卷積層,使其能夠處理時序數(shù)據(jù)。此外,VLOGGER還引入了一種"時序外推"的技術,允許模型迭代生成任意長度的視頻片段,同時保持時序一致性。
為了提高生成效果,VLOGGER采用了級聯(lián)擴散方法,對基礎分辨率的視頻進行超分辨重建,生成高達512x512分辨率的高質量影像。
VLOGGER數(shù)據(jù)集
為提高VLOGGER的泛化能力和安全性,研究人員構建了一個大規(guī)模訓練數(shù)據(jù)集MENTOR。該數(shù)據(jù)集包含80萬名不同身份的人物視頻,視頻長度總計超過2200小時,覆蓋了不同年齡、膚色、體型和文化背景的人群。
值得一提的是,數(shù)據(jù)集中的視頻均捕捉了單個人物在相機前交流的場景,并提供了相應的3D姿勢和表情標注,這對于訓練VLOGGER的多模態(tài)能力發(fā)揮了重要作用。
本文素材來源VLOGGER論文,如有侵權請聯(lián)系刪除
未經(jīng)允許不得轉載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 谷歌推出多模態(tài)視頻模型,自動生成豐富動作視頻
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國