成年全免费韩国网站,YY少妇影院1111111,波多野结衣丝袜视频

在Sora引爆文生視頻賽道之前，國(guó)內(nèi)的字節(jié)跳動(dòng)也推出了一款創(chuàng)新性視頻模型——Boximator。
與Gen-2、Pink1.0等模型不同的是，Boximator可以通過(guò)文本精準(zhǔn)控制生成視頻中人物或物體的動(dòng)作。
例如，下雨天，大風(fēng)把一位女生的雨傘吹走了。目前，很少有視頻模型能精準(zhǔn)做到這一點(diǎn)。

左側(cè)為Boximator生成的視頻
論文地址：https://arxiv.org/abs/2402.01566
項(xiàng)目地址：https://boximator.github.io/

Boximator案例賞析
我們先看一下Boximator與Gen-2、Pink1.0，在使用相同的文本提示詞、圖像生成的視頻，所表現(xiàn)出來(lái)的不同動(dòng)作。
為了方便觀察，「AIGC開(kāi)放社區(qū)」將對(duì)比視頻整合在一起，最左邊的是Boximator生成的視頻。
1），一個(gè)可愛(ài)的3D男孩站著，然后走路。

在這個(gè)案例中，Pika 1.0生成的視頻男孩只是站著沒(méi)有走動(dòng)，Gen-2的視頻走動(dòng)了但不明顯，只有Boximator產(chǎn)生了明顯的走動(dòng)動(dòng)作。
2）一位英俊的男人用他的右手從口袋里拿出一朵玫瑰，并且在看著這朵玫瑰。

這個(gè)案例Pika 1.0和Gen-2表現(xiàn)的都非常不好，男士沒(méi)有掏出玫瑰花的動(dòng)作。Boximator再一次完美理解文本語(yǔ)義并做出了相應(yīng)的動(dòng)作。
3）往杯子里加紅酒
這個(gè)案例主要展示了控制物體動(dòng)作的能力，Pika 1.0和Gen-2都做出了倒酒的動(dòng)作，但是杯子里的酒沒(méi)有明顯上升的動(dòng)作。只有Boximator做到了倒酒+上升兩個(gè)動(dòng)作。

看了這3個(gè)案例，能感受到Boximator對(duì)文本語(yǔ)義精準(zhǔn)理解，以及對(duì)動(dòng)作控制的強(qiáng)大功能了吧。
Boximator模型介紹
為了實(shí)現(xiàn)對(duì)視頻中物體、人物的動(dòng)作控制，Boximator使用了“軟框”和“硬框”兩種約束方法。
硬框：可精確定義目標(biāo)對(duì)象的邊界框。用戶可以在圖片中畫(huà)出感興趣的對(duì)象,Boximator會(huì)將其視為硬框約束,在之后的幀中精準(zhǔn)定位該對(duì)象的位置。

軟框：軟框定義一個(gè)對(duì)象可能存在的區(qū)域,形成一個(gè)寬松的邊界框。對(duì)象需要停留在這個(gè)區(qū)域內(nèi),但位置可以有一定變化，實(shí)現(xiàn)適度的隨機(jī)性。
兩類(lèi)框都包含目標(biāo)對(duì)象的ID,用于在不同幀中跟蹤同一對(duì)象。此外,框還包含坐標(biāo)、類(lèi)型等信息的編碼。
控制模塊和訓(xùn)練策略
控制模塊可以將框約束的編碼與視頻幀的視覺(jué)編碼結(jié)合，用來(lái)指導(dǎo)視頻的精準(zhǔn)動(dòng)作生成。包含框編碼器和自注意力層兩大塊。
框編碼器：將框的坐標(biāo)、ID、類(lèi)型等信息,通過(guò)Fourier編碼和MLP映射為控制向量。

自注意力層：將框的控制向量與視頻幀的視覺(jué)向量通過(guò)自注意力建模其關(guān)系,學(xué)習(xí)將框指導(dǎo)幀生成。
訓(xùn)練策略方面，Boximator主要分為兩個(gè)階段:自跟蹤階段，訓(xùn)練模型的同時(shí)生成視頻內(nèi)容和對(duì)應(yīng)的框，并簡(jiǎn)化框與對(duì)象的關(guān)系學(xué)習(xí)。

正常訓(xùn)練，訓(xùn)練模型只生成視頻內(nèi)容,框的內(nèi)在表達(dá)已經(jīng)學(xué)會(huì)指導(dǎo)對(duì)象生成。此外,訓(xùn)練還使用多階段策略，逐步過(guò)渡從硬框到軟框的約束,以及適當(dāng)融合無(wú)框數(shù)據(jù)。
Boximator實(shí)驗(yàn)數(shù)據(jù)
為獲得視頻訓(xùn)練數(shù)據(jù),研究人員從WebVid-10M數(shù)據(jù)集中，過(guò)濾出110萬(wàn)段動(dòng)態(tài)明顯的視頻片段,并自動(dòng)為其注釋了220萬(wàn)個(gè)對(duì)象的邊界框。并在PixelDance和ModelScope這兩個(gè)模型上訓(xùn)練了Boximator。

實(shí)驗(yàn)數(shù)據(jù)顯示，Boximator在保持原模型視頻質(zhì)量,具有非常強(qiáng)大的動(dòng)作控制能力。同時(shí)可以作為一種插件，幫助現(xiàn)有視頻擴(kuò)散模型提升生成質(zhì)量。
在MSR-VTT數(shù)據(jù)集上,無(wú)論是視頻質(zhì)量還是框與對(duì)象對(duì)齊精度方面,Boximator都優(yōu)于原模型。在人類(lèi)評(píng)估中,Boximator生成的視頻也在質(zhì)量和運(yùn)動(dòng)控制上明顯超過(guò)原模型。

字節(jié)跳動(dòng)的研究人員表示，目前該模型處于研發(fā)階段，預(yù)計(jì)2-3個(gè)月內(nèi)發(fā)布測(cè)試網(wǎng)站。讓我們期待一下國(guó)內(nèi)挑戰(zhàn)Sora的產(chǎn)品誕生吧！

本文素材來(lái)源Boximator論文，如有侵權(quán)請(qǐng)聯(lián)系刪除
END

繼續(xù)閱讀：