Facebook AI研究部門在自然語(yǔ)言理解方面的最新突破名為XLM-R,可以處理諸多任務(wù),比如針對(duì)包括斯瓦希里語(yǔ)和烏爾都語(yǔ)在內(nèi)的100種不同語(yǔ)言解答問(wèn)題。 這既表明深度學(xué)習(xí)模型變得越來(lái)越大,還表明它們遇到了現(xiàn)有計(jì)算系統(tǒng)中嚴(yán)重的資源瓶頸。
Facebook的巨型“XLM-R” 神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)精心設(shè)計(jì),可以 針對(duì) 包括斯瓦希里語(yǔ)和烏爾都語(yǔ)在內(nèi)的100種不同語(yǔ)言 處理 單詞問(wèn)題,但 即便 使用500個(gè) 世界一流的英偉達(dá) GPU,它也遇到了 計(jì)算 瓶頸 。
隨著機(jī)器學(xué)習(xí)模型變得越來(lái)越大,最先進(jìn)的AI研究繼續(xù)遇到傳統(tǒng)計(jì)算技術(shù)的瓶頸。
這是Facebook AI團(tuán)隊(duì)的研究人員最新的重大研究工作的成果之一。 上周,他們發(fā)布了有關(guān)其發(fā)明XLM-R的報(bào)告; XLM-R是一種自然語(yǔ)言模型,基于谷歌廣受歡迎的Transformer模型。
題為《大規(guī)模的無(wú)監(jiān)督跨語(yǔ)言表示學(xué)習(xí)》的論文( https://arxiv.org/pdf/1911.02116.pdf )發(fā)表在arXiv上,論文作者有Alexis Conneau、Kartikay Khandelwal Naman、Goyal Vishrav、Chaudhary Guillaume、Wenzek Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov,他們都是Facebook AI研究部門的人員。
XLM-R經(jīng)過(guò)精心設(shè)計(jì),能夠在100種不同語(yǔ)言之間進(jìn)行翻譯。 它基于Conneau今年早些時(shí)候與Facebook的Guillaume Lample攜手開(kāi)展的工作,F(xiàn)acebook創(chuàng)建了最初的XLM。 他們寫道,這與今年早些時(shí)候谷歌研究人員展示的對(duì)103種語(yǔ)言進(jìn)行跨語(yǔ)言訓(xùn)練的那個(gè)系統(tǒng)極為相似。
與以前在各種基準(zhǔn)測(cè)試任務(wù)(比如語(yǔ)言之間的問(wèn)題解答)方面所做的研究工作相比,這是很大的改進(jìn)。 尤其是,它在所謂的“低資源”語(yǔ)言方面取得了可喜的進(jìn)步,這些語(yǔ)言沒(méi)有太多的文字資料,比如斯瓦希里語(yǔ)和烏爾都語(yǔ)。
但是,盡管使用了500個(gè)功能最強(qiáng)大的英偉達(dá)GPU,XLM-R仍遇到了資源瓶頸。 論文作者們稱之為“多語(yǔ)言詛咒”。 如果你將越來(lái)越多的語(yǔ)言填塞到單單一個(gè)端到端的Transformer中,低資源語(yǔ)言將從中受益,但到了一定程度,每種語(yǔ)言都遇到瓶頸。
這是由于XLM-R很大,它有24層、16個(gè)“注意力頭”以及5.5億個(gè)參數(shù),不過(guò)它仍然容量有限。 終究有一天,它可以處理要求它執(zhí)行的各項(xiàng)任務(wù)。
作者們寫道: “模型容量(即模型中參數(shù)的數(shù)量)由于實(shí)際考慮因素而受到限制,比如訓(xùn)練和推理過(guò)程中的內(nèi)存和速度。 ”
XLM-R被要求處理大量的訓(xùn)練數(shù)據(jù),即使用CommonCrawl程序從網(wǎng)上收集的2.5萬(wàn)億字節(jié)數(shù)據(jù)。 XLM-R甚至還不是市面上最大的網(wǎng)絡(luò)。 OpenAI今年早些時(shí)候推出的GPT2其最大版本有48層和15億個(gè)參數(shù)。 正如Facebook的PyTorch負(fù)責(zé)人Joe Spisak今年初告訴IT外媒ZDNet,網(wǎng)絡(luò)變得越來(lái)越大。
就總的參數(shù)數(shù)量或?qū)訑?shù)而言,F(xiàn)acebook的“XLM-R”并不是最大的網(wǎng)絡(luò),但它確實(shí)因?qū)⑵湓S多參數(shù)專用于“單詞”(token)而脫穎而出。 Token是指它可以處理的詞匯量,總共是250000個(gè)單詞。
但是XLM-R遇到了一些特定的瓶頸,比如可以容納多大的詞匯量。 論文作者構(gòu)建的該系統(tǒng)以250000個(gè)“單詞”作為基準(zhǔn),這已經(jīng)比GPT-2的50000個(gè)單詞要多,但是他們知道: 如果XLM-R擁有的單詞多得多――意味著詞匯量更大,可以變得更好。
論文作者寫道: “有了更龐大的模型,我們認(rèn)為使用多達(dá)200萬(wàn)個(gè)單詞、并使用自適應(yīng)softmax方法的詞匯量有望進(jìn)一步提升性能,但我們會(huì)在以后開(kāi)展這項(xiàng)探究工作。 為了簡(jiǎn)單性起見(jiàn),并鑒于計(jì)算資源方面的限制,我們?yōu)閄LM-R使用了25萬(wàn)個(gè)單詞的詞匯量。 ”
單詞是一個(gè)計(jì)算問(wèn)題,因?yàn)槭褂酶嗟膯卧~需要將模型的更多參數(shù)專用于神經(jīng)網(wǎng)絡(luò)的輸入層,在輸入層將單詞嵌入為向量,而這意味著從網(wǎng)絡(luò)的其他部分獲取一些有限的參數(shù)容量。
XLM-R這個(gè)例子表明了深度學(xué)習(xí)領(lǐng)域的兩個(gè)重要趨勢(shì)。 一個(gè)趨勢(shì)是,科學(xué)家們?nèi)砸恍南霕?gòu)建越來(lái)越大的語(yǔ)言模型,以獲得更好的基準(zhǔn)測(cè)試結(jié)果。
而那些科學(xué)家繼續(xù)遇到計(jì)算容量方面的瓶頸。 這是表明如果計(jì)算界要支持科學(xué)家們想要完成的事情,就不得不改變的另一個(gè)跡象。
特別聲明:
文章來(lái)源:云頭條
原文鏈接:https://mp.weixin.qq.com/s/pDdfOOG-nO6k4Sr4cXZxhg
RPA中國(guó)推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來(lái)源標(biāo)注錯(cuò)誤或侵權(quán),請(qǐng)聯(lián)系更正或刪除,謝謝。
繼續(xù)閱讀:AI Facebook
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > Facebook最新的龐大語(yǔ)言AI遭遇計(jì)算瓶頸,哪怕使用500個(gè)英偉達(dá)GPU!
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)