香港大學(xué)、阿里集團(tuán)、螞蟻集團(tuán)聯(lián)合開(kāi)源了基于擴(kuò)散模型的,圖像生成、控制模型——AnyDoor。
AnyDoor的主要功能是“圖像傳送”,就是將一張圖像的內(nèi)容融合到另外一張圖像中,例如,將女生的藍(lán)色短袖換成,其他樣式的紅色衣服。
所以,也可以理解成“一鍵PS合成”或者PS中的內(nèi)容感知移動(dòng)工具。
根據(jù)「AIGC開(kāi)放社區(qū)」使用其在線demo的體驗(yàn),操作方法非常簡(jiǎn)單,上傳圖片然后標(biāo)注涂抹區(qū)域即可。
整個(gè)功能強(qiáng)大且可視化,用戶(hù)可以控制強(qiáng)度、種子、指導(dǎo)量表等參數(shù),使得融合的圖像更加細(xì)膩、逼真。
目前,AnyDoor在Github達(dá)到3000顆星,非常受歡迎。
開(kāi)源地址:https://github.com/ali-vilab/AnyDoor
論文地址:https://arxiv.org/abs/2307.09481
Demo地址:https://huggingface.co/spaces/xichenhku/AnyDoor-online
AnyDoor的核心技術(shù)思路是同時(shí)表示身份和細(xì)節(jié)。表示身份,通過(guò)自監(jiān)督模塊提取語(yǔ)義一致的 ID 特征;
表示細(xì)節(jié),則利用高頻區(qū)域捕捉表面紋理,既能保持紋理細(xì)節(jié),又能實(shí)現(xiàn)靈活的局部變化(光照、方向、姿勢(shì)等),使得對(duì)象能夠與不同的環(huán)境進(jìn)行良好的融合。
與傳統(tǒng)方法不同,AnyDoor模型只需進(jìn)行一次訓(xùn)練,便能夠在推理階段廣泛應(yīng)用于不同的對(duì)象、場(chǎng)景組合,而無(wú)需為每個(gè)對(duì)象調(diào)整參數(shù)。
身份特征提取模塊
傳統(tǒng)方法是使用CLIP圖像編碼器來(lái)嵌入目標(biāo)對(duì)象。但CLIP是基于粗略描述的文本圖像對(duì)訓(xùn)練的,只能嵌入語(yǔ)義級(jí)別的信息,而無(wú)法給出保留對(duì)象身份的可辨認(rèn)表示。
為了解決這一難題,研究人員進(jìn)行了兩大創(chuàng)新:1)移除背景,在將目標(biāo)圖像饋送到ID提取器之前,使用分割器移除背景并將對(duì)象與圖像中心對(duì)齊。這種操作被證明有助于提取更整潔和更可辨認(rèn)的特征。
2)自監(jiān)督表示,在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練,自監(jiān)督模型具備實(shí)例檢索能力,可以將對(duì)象投影到一個(gè)數(shù)據(jù)增強(qiáng)不變的特征空間中。
研究人員使用了目前最佳的自監(jiān)督模型之一DINO-V2作為ID提取器的主干,將圖像編碼為一個(gè)全局表示和一系列區(qū)域表示,通過(guò)連接這兩類(lèi)表示來(lái)保留更多信息。
最后,通過(guò)一個(gè)線性層將這些表示與預(yù)訓(xùn)練的文本到圖像UNet的嵌入空間對(duì)齊,投影后的表示作為ID標(biāo)記。
細(xì)節(jié)特征提取
當(dāng)ID標(biāo)記失去了空間分辨率,會(huì)很難充分表示目標(biāo)對(duì)象的細(xì)微細(xì)節(jié)。因此,需要額外的指導(dǎo)以在互補(bǔ)的方式生成細(xì)節(jié)。為了使融合的圖像更加逼真、絲滑,研究人員使用了兩種輔助方法來(lái)實(shí)現(xiàn)。
拼貼表示:將“去背景的目標(biāo)對(duì)象”拼貼在給定場(chǎng)景的指定位置,以改善生成圖像的保真度。
但生成的內(nèi)容與給定目標(biāo)過(guò)于相似,缺乏多樣性,所以,研究人員又設(shè)置了一個(gè)信息瓶頸以防止拼貼給出太多外觀約束。
高頻圖:提取目標(biāo)對(duì)象的高頻圖,這可以保持細(xì)微細(xì)節(jié),同時(shí)允許姿態(tài)、照明、方向等各種局部變體。
研究人員使用Sobel作為濾波器,首先提取圖像的高頻區(qū)域,然后使用Hadamard乘積提取RGB顏色,同時(shí)添加了腐蝕掩模來(lái)過(guò)濾目標(biāo)對(duì)象外輪廓附近的信息。
得到高頻圖后,根據(jù)給定的位置將其拼接到場(chǎng)景圖像上,再將拼接結(jié)果傳遞給細(xì)節(jié)提取器,二者之間進(jìn)行深度融合實(shí)現(xiàn)更好的效果。
研究人員表示,AnyDoor模型主要用于一鍵換臉/換衣、虛擬試穿、在線PS等業(yè)務(wù)場(chǎng)景??梢宰尯芏嗖欢夹g(shù)的電商賣(mài)家,也能實(shí)現(xiàn)專(zhuān)業(yè)PS的功能。
本文素材來(lái)源AnyDoor論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 隨意融合圖像,阿里、港大開(kāi)源圖像控制模型AnyDoor
熱門(mén)信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)