社交、科技巨頭Meta聯(lián)合15所大學(xué)的研究機構(gòu),經(jīng)過兩年多的努力發(fā)布了首個多模態(tài)視頻訓(xùn)練數(shù)據(jù)集和基礎(chǔ)套件Ego-Exo4D,用于訓(xùn)練和研究AI大模型。
據(jù)悉,該數(shù)據(jù)集收集了來自13個城市839名參與者的視頻,總時長超過1400小時,包含舞蹈、足球、籃球、攀巖、音樂、烹飪、自行車維修等8大類,131個復(fù)雜場景動作。這使得AI模型更好地理解人類的行為,有助于開發(fā)出更強大的多模態(tài)大模型。
Ego-Exo4D也是目前最大的公開第一人稱和第三人稱視頻訓(xùn)練集。Meta已經(jīng)準(zhǔn)備開源該數(shù)據(jù)集,最晚12月底開放下載。
Ego-Exo4D下載地址:
https://ego-exo4d-data.org/
論文地址:
https://ego-exo4d-data.org/paper/ego-exo4d.pdf
與其他視覺數(shù)據(jù)集不同的是,Ego-Exo4D最大技術(shù)特點在于數(shù)據(jù)的多模態(tài)性。基于Aria智能眼鏡平臺,第一人稱視頻帶有豐富的同步錄制信息,包括七通道音頻、眼動追蹤狀態(tài)、頭部運動測量(IMU)、雙目RGB-D攝像視頻、周圍三維環(huán)境點云等。
此外,數(shù)據(jù)集中所有視頻都配有三種不同的語言描述,分別是領(lǐng)域?qū)<覍Ρ憩F(xiàn)的評論、參與者自身對所做活動的敘述以及第三方對各個原子操作的文字描述。
第一人稱和第三人稱攝像機設(shè)置
Ego-Exo4D數(shù)據(jù)集使用了一款名叫Aria的眼鏡。該眼鏡可以拍攝第一人稱視頻,記錄運動員自己的視角。
同時場外還有4-5個GoPro攝像機,拍攝第三人稱視頻,記錄教練的視角。這些攝像機使用了定制的QR碼進行時間同步,確保第一人稱視頻和第三人稱視頻能精確匹配上,然后進行比較。
Aria眼鏡內(nèi)置豐富的傳感器,提供RGB、深度、音頻、IMU、眼動等多模態(tài)數(shù)據(jù)。Ego-Exo4D充分利用這些硬件優(yōu)勢,為每段第一人稱視頻同步捕獲了七通道音頻、眼動追蹤、IMU動作數(shù)據(jù)、兩個RGB-D SLAM攝像頭以及周圍3D點云環(huán)境。這些數(shù)據(jù)可支持多種新穎的多模態(tài)視頻理解研究。
精準(zhǔn)文本描述
Ego-Exo4D視頻數(shù)據(jù)還匹配了三種不同形式的語言描述,均與視頻時間軸對齊:第一是領(lǐng)域內(nèi)資深專家對執(zhí)行者表現(xiàn)的評價性解說,揭示非專業(yè)人士不易察覺的技巧和方法;
第二是執(zhí)行者對自己所做活動的第一人稱敘述;第三是外部標(biāo)注人員對每個行為操作的簡要文字描述。這些豐富的語言資源可以大幅推動視頻理解中的語言參照和示教相關(guān)應(yīng)用。
四大類基準(zhǔn)測試
為了驗證數(shù)據(jù)集的有效性,研究人員在四類基準(zhǔn)測試上進行第一人稱視頻理解和多模態(tài)識別測試,用于評估在復(fù)雜視角轉(zhuǎn)換、細粒度操作檢測、示范者評級等方面的表現(xiàn)。
1)跨視角對應(yīng)和遷移基準(zhǔn)測試
該基準(zhǔn)測試任務(wù)利用第一、三人稱視頻,研究跨視角的目標(biāo)匹配和新視角合成問題。考察點包括:在極端視角、嚴(yán)重遮擋下的稀疏對應(yīng)問題;合成新視角圖像時運用姿態(tài)、語義先驗的有效性等。
2)細粒度操作識別基準(zhǔn)測試
該任務(wù)需要區(qū)分復(fù)雜順序活動中語義相近的細粒度操作,如識別折疊被褥還是整理被褥。訓(xùn)練階段允許使用配對的第一、三人稱視頻,以學(xué)習(xí)視角不變的表示。測試階段僅給第一人稱視頻,考察跨視角特征遷移的效果。
3)示范者熟練度評估基準(zhǔn)測試
這項基準(zhǔn)測試要求對整個視頻中的示范者進行整體熟練度評級,同時需要識別視頻中局部段落的正確/錯誤執(zhí)行。這可驅(qū)動人類行為質(zhì)量分析以及教練系統(tǒng)的研究。
4)第一人稱姿態(tài)估計基準(zhǔn)測試
這項基準(zhǔn)測試目標(biāo)是從第一人稱視頻中恢復(fù)三維的手部和身體關(guān)鍵點,解決動態(tài)場景中嚴(yán)重遮擋、模糊、大姿態(tài)變化等難題。
結(jié)果顯示,Ego-Exo4D皆獲得了不錯的成績。例如,在第一人稱和第三人稱視角之間的目標(biāo)追蹤和姿態(tài)預(yù)測任務(wù)上,方法可以達到38%的平均IoU;而在識別17種順序活動中689種細粒度操作的任務(wù)上,方法可以獲得58%的準(zhǔn)確率。
研究人員表示,傳統(tǒng)的訓(xùn)練數(shù)據(jù)多數(shù)都是重復(fù)和模擬,很難讓AI從更深度的角度去理解人類的行為和動作。
Ego-Exo4D提供了一個前所未有的大規(guī)模第一人稱和第三人稱視角視頻數(shù)據(jù)集。該數(shù)據(jù)集和基準(zhǔn)測試填補了現(xiàn)有數(shù)據(jù)集的空白,可推動更強的多模態(tài)大模型研究。
未來,數(shù)據(jù)集、文本標(biāo)注和基準(zhǔn)代碼將完全開源以供研究人員使用。
本文素材來源Ego-Exo4D論文,如有侵權(quán)請聯(lián)系刪除
END
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > Meta開源最大多模態(tài)視頻數(shù)據(jù)集—Ego-Exo4D
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國