文本總結(jié)是機(jī)器學(xué)習(xí)算法的最佳應(yīng)用途徑之一,微軟研究院最近發(fā)表的一篇論文證明了這一點(diǎn)。同時,文本自動總結(jié)功能有望減少企業(yè)員工閱讀郵件的時間。一項(xiàng)調(diào)查表明,企業(yè)員工平均每天需要2.6個小時用來閱讀郵件信息。近日,“谷歌大腦”(Google Brain)聯(lián)合英國倫敦帝國理工學(xué)院構(gòu)建了一個智能系統(tǒng),利用Google的Transformers架構(gòu)與針對抽象文本量身定制的文本總結(jié)系統(tǒng),可總結(jié)包括:新聞、科學(xué)、故事、說明、電子郵件、專利以及立法法案等文本內(nèi)容。
在上述所有文本形式中,Google Brain的AI完美的總結(jié)了1000個文本實(shí)例,其真實(shí)度與編輯、作家所撰寫的內(nèi)容幾乎一樣。正如研究人員所指出的那樣,與執(zhí)行技術(shù)相比,文本摘要旨在從輸入文檔中生成準(zhǔn)確而簡潔的摘要。抽象總結(jié)不僅可以復(fù)制輸入中的片段,還可以產(chǎn)生新穎的單詞或覆蓋主要信息,從而使輸出在語言上保持流利和人性化。
“情感探測器”是Google人工智能研究部門,Google Brain的研究人員在論文中介紹的一種神經(jīng)結(jié)構(gòu)。與所有深層神經(jīng)網(wǎng)絡(luò)一樣,它們包含布置在相互連接層中的神經(jīng)元,這些功能從輸入數(shù)據(jù)傳輸信號并緩慢調(diào)整每個連接的權(quán)重,這就是所有AI模型如何提取特征并學(xué)會進(jìn)行總結(jié)的方式。Google Brain的團(tuán)隊設(shè)計了一個數(shù)據(jù)訓(xùn)練模型,其中包含了整個文檔中很重要的句子。人工智能必須通過利用網(wǎng)絡(luò)和新聞文章來填補(bǔ)空白,包括研究人員編寫的新語料庫和網(wǎng)絡(luò)文章等。
在實(shí)驗(yàn)中,研究小組選擇了性能最佳的Pegasus模型:一種具有5.68億個參數(shù)或從歷史數(shù)據(jù)中學(xué)習(xí)的變量模型,通過從3.5億個網(wǎng)頁中提取的750GB文本(通用抓取)和從新聞網(wǎng)站收集的文章總計3.8TB。研究人員稱,在流利性和連貫性方面達(dá)到了很高的語言質(zhì)量,并且不需要人工進(jìn)行修改、校準(zhǔn)等處理。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > Google Brain的AI,實(shí)現(xiàn)了最先進(jìn)的文本總結(jié)功能
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國