隨著ChatGPT等模型被廣泛應(yīng)用,用戶對(duì)功能的需求也呈多模態(tài)發(fā)展,例如,在單一模型上既能生成文本也可以生成圖片等。
但現(xiàn)有視覺(jué)模型通常僅針對(duì)單一模態(tài)和任務(wù)進(jìn)行優(yōu)化,缺乏能夠處理多種模態(tài)和任務(wù)的通用能力。
為了解決這一難題,蘋(píng)果的研究人員和全球著名公立大學(xué)EPFL(瑞士洛桑聯(lián)邦理工學(xué)院)聯(lián)合開(kāi)發(fā)了4M框架并即將開(kāi)源。4M可以把多種輸入/輸出模態(tài),包括文本、圖像、幾何、語(yǔ)義模態(tài)以及神經(jīng)網(wǎng)絡(luò)特征圖等,全部集成在大模型中(適用于Transformer架構(gòu))。
項(xiàng)目地址:https://4m.epfl.ch/
論文地址:https://arxiv.org/abs/2312.06647
4M技術(shù)原理簡(jiǎn)單介紹
相比以往單一模態(tài)下的深度學(xué)習(xí)方法,4M最大的技術(shù)亮點(diǎn)在于使用了一種名為"Massively Multimodal Masked Modeling"(大規(guī)模多模態(tài)屏蔽建模)的訓(xùn)練方法。
可以同時(shí)處理圖像、語(yǔ)義、幾何等各類視覺(jué)模態(tài),將影像、字幕、框架信息等,都能以離散 tokens 的形式完美“翻譯”出來(lái),實(shí)現(xiàn)各模態(tài)在表示空間上的統(tǒng)一。
為確保tokens之間協(xié)調(diào)一致,4M還在注意力機(jī)制中加入模態(tài)區(qū)分,禁止不同模態(tài)之間互相影響。同時(shí)4M訓(xùn)練采用掩碼重建目標(biāo),實(shí)際上相當(dāng)于進(jìn)行模態(tài)間的預(yù)測(cè)編碼。
在訓(xùn)練過(guò)程中,模型會(huì)隨機(jī)選擇一小部分標(biāo)記作為輸入,另一小部分標(biāo)記作為目標(biāo),通過(guò)解耦輸入和目標(biāo)標(biāo)記的數(shù)量與模態(tài)數(shù)量的關(guān)系,實(shí)現(xiàn)了可擴(kuò)展的訓(xùn)練目標(biāo)。
簡(jiǎn)單來(lái)說(shuō),無(wú)論用戶輸入的內(nèi)容是圖片還是文本,對(duì)于4M來(lái)說(shuō)都是一串標(biāo)準(zhǔn)化的數(shù)字標(biāo)記。這種“通用語(yǔ)言”設(shè)計(jì)有效阻斷了各模態(tài)特有信息對(duì)模型架構(gòu)的影響,極大提升了模型的通用性。
訓(xùn)練數(shù)據(jù)和方法
4M將在訓(xùn)練過(guò)程中使用了全球最大的開(kāi)源數(shù)據(jù)集之一CC12M,包含圖像、深度圖、語(yǔ)義信息、文本等各類數(shù)據(jù)集。
雖然CC12M的數(shù)據(jù)很多,但缺乏準(zhǔn)確的標(biāo)注信息。為了解決這個(gè)難題,研究人員使用了一種高效、成本又低的方法——弱監(jiān)督偽標(biāo)簽。這個(gè)與前幾天OpenAI開(kāi)源的超級(jí)對(duì)齊方法很相似。
通過(guò)利用CLIP、MaskRCNN等技術(shù),對(duì)CC12M的圖像數(shù)據(jù)集進(jìn)行全面預(yù)測(cè),然后得到語(yǔ)義、幾何及視覺(jué)特征等豐富模態(tài)信息。
再使用轉(zhuǎn)換“翻譯”模塊將所有偽標(biāo)簽信息,統(tǒng)一轉(zhuǎn)化為離散表示的“tokens”。這為4M在不同模態(tài)之間實(shí)現(xiàn)統(tǒng)一的兼容奠定基礎(chǔ)。
研究人員在廣泛的實(shí)驗(yàn)和基準(zhǔn)測(cè)試平臺(tái)中對(duì)4M進(jìn)行了測(cè)試,可以直接執(zhí)行多模態(tài)任務(wù),而無(wú)需進(jìn)行大量的特定任務(wù)預(yù)訓(xùn)練或微調(diào)。
本文素材來(lái)源4M論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 可將任意大模型實(shí)現(xiàn)多模態(tài),蘋(píng)果開(kāi)源4M
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)