最新研究表明,準(zhǔn)確建模人類的3D空間音頻與視覺場景的匹配,是實(shí)現(xiàn)虛擬環(huán)境沉浸感和臨場感的關(guān)鍵。但多數(shù)學(xué)術(shù)界和企業(yè)目前只專注于視覺方面,而忽略了同樣重要的聽覺。
為了加速3D空間音頻的研發(fā)進(jìn)程,上海AI實(shí)驗(yàn)室和Meta聯(lián)合開發(fā)了一種可為人體生成3D空間音頻模型將其開源。
據(jù)悉該模型使用了頭戴式麥克風(fēng)的音頻信號以及人體姿態(tài)作為輸入,輸出包圍發(fā)聲人身體的三維音場,從而可以在三維空間的任意位置渲染出空間音頻。
論文地址:https://arxiv.org/abs/2311.06285
開源地址:https://github.com/facebookresearch/SoundingBodies
從技術(shù)層面來看,要開發(fā)一個(gè)3D空間音頻模型并不容易,主要面臨三大技術(shù)難題。1)音源位置未知,系統(tǒng)需要區(qū)分一些細(xì)微的身體動作聲,判斷聲音來自左手還是右手;
2)麥克風(fēng)距離音源較遠(yuǎn),無法直接獲取音源信號;3)語音和身體動作聲混合在一起,無法進(jìn)行分離。
為了解決這些問題,研究人員構(gòu)建了一個(gè)多模態(tài)融合模式,并加入身體姿態(tài)信息來消除聲源的位置歧義,以生成正確的空間音頻。
音頻編碼器
該模塊的作用是處理來自頭戴式麥克風(fēng)的輸入音頻信號。通常我們想要模擬VR場景,用戶需要戴著頭盔,而音頻是來自頭盔上的麥克風(fēng)。
輸入音頻包含語音和身體動作產(chǎn)生的各種聲音,比如手拍、腳步聲等。音頻編碼器的技術(shù)原理是首先根據(jù)可能的音源位置(比如不同的身體部位),對輸入音頻進(jìn)行時(shí)間平移對齊。
然后把時(shí)間對齊后的多個(gè)音頻信號在通道維度上拼接在一起,傳入一個(gè)全連接層,得到最終的音頻特征表達(dá)。這種機(jī)制的好處是包含了來自各個(gè)可能音源位置的音頻信息。
人體姿態(tài)編碼器
主要作用是分析輸入的人體姿態(tài)關(guān)鍵點(diǎn),并生成姿態(tài)特征表達(dá)。當(dāng)一個(gè)人產(chǎn)生音頻的時(shí)候,他的身體動作會提供音源位置的強(qiáng)烈提示,例如,拍手聲就是來自手部位置。所以人的姿態(tài)序列對生成正確的三維空間音頻非常重要。
具體來說,首先獲取身體各個(gè)關(guān)鍵點(diǎn)的三維坐標(biāo)信息,然后通過卷積網(wǎng)絡(luò)學(xué)習(xí)生成每個(gè)關(guān)節(jié)點(diǎn)的特征表達(dá)。最后將所有關(guān)節(jié)點(diǎn)的特征在通道維度上拼接,傳入多層全連接網(wǎng)絡(luò),得到最終的姿態(tài)特征。
音頻解碼器
這個(gè)模塊是基于以上獲得的音頻和姿態(tài)特征,以及想要生成的三維目標(biāo)位置,預(yù)測這個(gè)位置的音頻輸出。所以,該解碼器包含多個(gè)解碼層。
同時(shí), 每個(gè)解碼塊都包含卷積層、門控層和殘差連接,可以捕獲音頻的長時(shí)序上下文。同時(shí),解碼塊通過條件輸入,結(jié)合音頻特征、姿態(tài)特征和目標(biāo)位置編碼,來生成三維目標(biāo)位置的音頻輸出。
通過這種多模態(tài)特征解析和逐步上采樣,系統(tǒng)最后可以擴(kuò)展到整個(gè)三維空間,合成身臨其境的3D音場效果。
盡管該模型在3D空間音頻生成方面實(shí)現(xiàn)了技術(shù)突破,為建立真正沉浸式的虛擬人類邁出了關(guān)鍵一步。但研究人員表示,目前僅適用于渲染人體音,無法處理非自由音場傳播環(huán)境,因?yàn)橛?jì)算量較大,難以部署到資源受限的消費(fèi)類設(shè)備上。
本文素材來源上海AI實(shí)驗(yàn)室論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 可為人體生成3D空間音頻,上海AI實(shí)驗(yàn)室、Meta開源創(chuàng)新模型
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國