一方面,人工標(biāo)注真實(shí)第一視角數(shù)據(jù)集,來(lái)培訓(xùn)深度學(xué)習(xí)模型的成本和難度都很高。另一方面,以往用于第三人稱視角的虛擬渲染數(shù)據(jù),無(wú)法很好地模擬第一視角下的真實(shí)人體運(yùn)動(dòng)與環(huán)境交互過(guò)程。
為了解決這些難題,微軟和蘇黎世聯(lián)邦理工學(xué)院的研究人員推出了EgoGen,這是一個(gè)用于生成第一視角訓(xùn)練數(shù)據(jù)的模型。
EgoGen不僅具有高效的數(shù)據(jù)生成流程,還能夠適用于多個(gè)自我中心感知任務(wù),例如,生成的數(shù)據(jù)可以用于恢復(fù)自我中心視角下的人體網(wǎng)格。
論文地址:https://arxiv.org/abs/2401.08739
即將開源地址:https://github.com/ligengen/EgoGen

EgoGen使用了一種創(chuàng)新的人體運(yùn)動(dòng)合成模型來(lái)合成高數(shù)據(jù)。該模型通過(guò)直接利用虛擬人的自我中心視覺(jué)輸入,來(lái)感知周圍3D環(huán)境。
與先前的方法相比,EgoGen的模型消除了對(duì)預(yù)定義全局路徑的需求,并且可以直接應(yīng)用于動(dòng)態(tài)環(huán)境。
生成模型訓(xùn)練
EgoGen模型的第一階段,研究人員使用了一種生成模型來(lái)訓(xùn)練虛擬人物的行為,將身體運(yùn)動(dòng)和感知過(guò)程無(wú)縫地結(jié)合起來(lái)。
身體運(yùn)動(dòng)與感知的關(guān)鍵點(diǎn)是使虛擬人能夠通過(guò)自我感知的視覺(jué)輸入看到他們的環(huán)境,并通過(guò)學(xué)習(xí)控制一組避免碰撞的運(yùn)動(dòng)基元的策略來(lái)做出相應(yīng)的反應(yīng),這些基元可以組合以合成長(zhǎng)期的多樣化人類動(dòng)作。

通常我們生成的運(yùn)動(dòng)基元模型具有無(wú)界和高維的潛在動(dòng)作空間,直接通過(guò)渲染的自我感知圖像進(jìn)行策略訓(xùn)練是很不穩(wěn)定的。

所以,EgoGen使用了一種高效的自我感知視覺(jué)代理的雙階段強(qiáng)化學(xué)習(xí)方案,無(wú)縫地將自我感知視覺(jué)線索和身體運(yùn)動(dòng)相結(jié)合,同時(shí)使用了“注意”獎(jiǎng)勵(lì)來(lái)激勵(lì)自我感知行為。
強(qiáng)化學(xué)習(xí)優(yōu)化
研究人員使用了強(qiáng)化學(xué)習(xí)優(yōu)化方法對(duì)生成模型進(jìn)行性能優(yōu)化,可以讓虛擬人物能夠以最佳方式感知環(huán)境、規(guī)避障礙并達(dá)到目的地。
主要通過(guò)獎(jiǎng)勵(lì)函數(shù)的引導(dǎo),使虛擬人物的運(yùn)動(dòng)變得更加自然和逼真。具體來(lái)說(shuō),當(dāng)虛擬人物在生成過(guò)程中朝著期望的方向觀察時(shí),將受到"注意"獎(jiǎng)勵(lì)的正向反饋。
這意味著如果虛擬人物能夠集中注意力并關(guān)注與任務(wù)相關(guān)的對(duì)象或區(qū)域,將獲得額外的獎(jiǎng)勵(lì)信號(hào)。這鼓勵(lì)虛擬人物在感知任務(wù)中更加專注和準(zhǔn)確。

"注意"獎(jiǎng)勵(lì)的實(shí)現(xiàn)方式可以根據(jù)具體情況進(jìn)行調(diào)整。例如,在訓(xùn)練過(guò)程中,可以通過(guò)監(jiān)測(cè)虛擬人物的視覺(jué)輸入和目標(biāo)方向之間的一致性來(lái)計(jì)算獎(jiǎng)勵(lì)值。
如果虛擬人物的注意力與任務(wù)目標(biāo)的位置或運(yùn)動(dòng)方向相一致,獎(jiǎng)勵(lì)值將增加;反之,如果虛擬人物的注意力偏離了任務(wù)目標(biāo),獎(jiǎng)勵(lì)值將減少或?yàn)樨?fù)值。

通過(guò)不斷優(yōu)化生成模型,并利用這些獎(jiǎng)勵(lì)信號(hào)進(jìn)行反饋,逐步改進(jìn)了虛擬人物的行為,使其能夠準(zhǔn)確地感知和適應(yīng)復(fù)雜的環(huán)境。

為了驗(yàn)證EgoGen方法的有效性,研究人員在三個(gè)第一人稱的感知任務(wù)上進(jìn)行了綜合評(píng)估:頭戴式攝像頭的建圖和定位、攝像頭跟蹤以及從第一視角恢復(fù)人體網(wǎng)格。
通過(guò)使用EgoGen生成的高質(zhì)量合成數(shù)據(jù),并提供精確的地面真實(shí)標(biāo)注,現(xiàn)有的最先進(jìn)算法在這些任務(wù)上的性能全部得到了大幅度增強(qiáng)。
本文素材來(lái)源EgoGen論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
END
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 創(chuàng)新性3D數(shù)據(jù)合成模型,微軟推出EgoGen
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)