在11月7日OpenAI的首屆開(kāi)發(fā)者大會(huì)上,除了推出一系列重磅產(chǎn)品之外,還開(kāi)源了兩款產(chǎn)品,全新解碼器Consistency Decoder(一致性解碼器)和最新語(yǔ)音識(shí)別模型Whisper v3。
據(jù)悉,Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像,尤其是在文本、面部和直線方面有大幅度提升。僅上線一天的時(shí)間,在Github就收到1100顆星。
Whisper large-v3是OpenAI之前開(kāi)源的whisper模型的最新版本,在各種語(yǔ)言上的性能都有顯著提升。OpenAI會(huì)在未來(lái)的API計(jì)劃中提供Whisper v3。
解碼器地址:https://github.com/openai/consistencydecoder
Whisper v3地址:https://github.com/openai/whisper
Consistency Decoder效果展示
Consistency Decoder算是OpenAI“一致性”家族里的新成員,所以,「AIGC開(kāi)放社區(qū)」想為大家介紹一下OpenAI之前開(kāi)源的另一個(gè)創(chuàng)新模型——Consistency Models。
擴(kuò)散模型的出現(xiàn)極大推動(dòng)了文生圖片、視頻、音頻等領(lǐng)域的發(fā)展,涌現(xiàn)了GAN、VAE等知名模型。但是這些模型在推理的過(guò)程中,過(guò)于依賴迭代采樣過(guò)程,導(dǎo)致生成效率非常緩慢或生成圖片質(zhì)量太差。
OpenAI為了突破這個(gè)技術(shù)瓶頸,提出了Consistency Models(一致性模型)框架并將其開(kāi)源。該技術(shù)的最大優(yōu)勢(shì)是支持單步高質(zhì)量生成,同時(shí)保留迭代生成的優(yōu)點(diǎn)。簡(jiǎn)單來(lái)說(shuō),可以使文生圖模型在推理的過(guò)程中又快又準(zhǔn)攻守兼?zhèn)洹?/p>
此外,Consistency Models可以通過(guò)提取預(yù)先訓(xùn)練的擴(kuò)散模型來(lái)使用,也可以作為獨(dú)立的生成模型來(lái)訓(xùn)練,兼容性強(qiáng)且靈活。
開(kāi)源地址:https://github.com/openai/consistency_models
論文:https://arxiv.org/abs/2303.01469
為了讓大家更好的理解Consistency Models技術(shù)特點(diǎn),「AIGC開(kāi)放社區(qū)」先簡(jiǎn)單的介紹一下擴(kuò)散模型的原理。
什么是擴(kuò)散模型
擴(kuò)散模型主要通過(guò)模擬擴(kuò)散過(guò)程來(lái)生成數(shù)據(jù),核心技術(shù)是將數(shù)據(jù)看作是由一個(gè)簡(jiǎn)單的隨機(jī)過(guò)程(例如,高斯白噪聲)經(jīng)過(guò)一系列平滑變換得到的結(jié)果。
擴(kuò)散模型主要由正向過(guò)程和反向過(guò)程兩大塊組成。正向過(guò)程(擴(kuò)散過(guò)程):首先將原始數(shù)據(jù)通過(guò)添加噪聲逐漸擴(kuò)散,直到變成無(wú)法識(shí)別的噪聲。
具體來(lái)說(shuō),每一步都會(huì)添加一點(diǎn)噪聲,噪聲的強(qiáng)度通常會(huì)隨著步驟的進(jìn)行而增大。這個(gè)過(guò)程可以用一個(gè)隨機(jī)微分方程來(lái)描述。
反向過(guò)程(去噪聲過(guò)程):然后使用一個(gè)學(xué)習(xí)到的模型從噪聲數(shù)據(jù)中重建原始數(shù)據(jù)。
這個(gè)過(guò)程通常通過(guò)優(yōu)化一個(gè)目標(biāo)函數(shù)來(lái)進(jìn)行,目標(biāo)是讓重建的數(shù)據(jù)與原始數(shù)據(jù)盡可能相似。
Consistency Models簡(jiǎn)單介紹
Consistency Models受擴(kuò)散模型技術(shù)思路啟發(fā),直接將噪聲映射到數(shù)據(jù)分布,無(wú)需迭代過(guò)程直接生成高質(zhì)量圖像。實(shí)驗(yàn)證明,如果模型輸出在同一軌跡上的點(diǎn)保持一致,可以有效學(xué)習(xí)此映射。
簡(jiǎn)單來(lái)說(shuō),Consistency Models直接放棄了逐步去噪過(guò)程,而是直接學(xué)習(xí)把隨機(jī)的噪聲映射到復(fù)雜的圖像上,同時(shí)加上了一致性的規(guī)則約束,避免生成的圖像出現(xiàn)“驢唇不對(duì)馬嘴”的情況。
說(shuō)的更直白一點(diǎn),我們?nèi)绻鲆坏缆槠哦垢?,需要先切豆腐、配菜,然后放在馬勺里進(jìn)行大火翻炒,再放上調(diào)料最后出鍋。
而Consistency Models的方法是直接就變出一盤(pán)麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用戶標(biāo)準(zhǔn)來(lái)的,這就是該技術(shù)的神奇之處。
基于上述技術(shù)概念,OpenAI的研究人員使用了知識(shí)蒸餾和直接訓(xùn)練兩種方法來(lái)訓(xùn)練Consistency Models。
知識(shí)蒸餾:使用一個(gè)預(yù)先訓(xùn)練好的擴(kuò)散模型(如Diffusion),生成一些數(shù)據(jù)對(duì),然后訓(xùn)練Consistency Models時(shí)讓這些數(shù)據(jù)對(duì)的輸出盡可能接近,來(lái)跟擴(kuò)散模型進(jìn)行知識(shí)蒸餾。
直接訓(xùn)練法:直接從訓(xùn)練集樣本中學(xué)習(xí)數(shù)據(jù)到噪聲的映射,不需要依賴預(yù)訓(xùn)練模型。主要是加入噪聲進(jìn)行數(shù)據(jù)增強(qiáng),然后優(yōu)化增強(qiáng)前后的輸出一致性。
實(shí)驗(yàn)數(shù)據(jù)
研究人員在多個(gè)圖像數(shù)據(jù)集上測(cè)試了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。
結(jié)果表明,知識(shí)蒸餾訓(xùn)練的Consistency Models效果最好,在所有數(shù)據(jù)集和步數(shù)下均優(yōu)于現(xiàn)有最好的蒸餾技術(shù)Progressive Distillation。
例如,在CIFAR-10上,單步生成達(dá)到新記錄的FID 3.55,兩步生成達(dá)到2.93;在ImageNet 64x64上,單步生成FID為6.20,兩步生成為4.70,均刷新記錄。
直接訓(xùn)練方式下,Consistency Models也顯示出強(qiáng)大的能力,在CIFAR-10上打敗了大多數(shù)單步生成模型,質(zhì)量接近Progressive Distillation。
此外,該模型支持進(jìn)行零樣本圖像編輯,可實(shí)現(xiàn)圖像去噪、插值、上色、超分辨率生成、筆觸生成等多種任務(wù),而無(wú)需專門(mén)訓(xùn)練。
本文素材來(lái)源OpenAI官網(wǎng)、論文、開(kāi)源項(xiàng)目,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > OpenAI開(kāi)源全新解碼器,極大提升Stable Diffusion性能
熱門(mén)信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)