近日,為了解決AI精準(zhǔn)提取文章摘要這個難題,Google Brain團(tuán)隊發(fā)布了一個名為SummAE的智能摘要系統(tǒng)。該系統(tǒng)只需要少量的訓(xùn)練數(shù)據(jù),便可以對文章進(jìn)行精確的概括。盡管無法與人工水平相比,但研究人員聲稱它在基線上有了明顯的改進(jìn)。
SummAE包含一個自動降噪編碼器,該編碼器在共享空間中對目標(biāo)文本的句子和段落進(jìn)行編碼(即生成其數(shù)字表示)。在其輸入之前,該編碼器可對每一個句子或段落進(jìn)行解碼,然后系統(tǒng)通過對每一個解碼的內(nèi)容自動生成摘要內(nèi)容。
Google Brain研究人員發(fā)現(xiàn),訓(xùn)練自動編碼器的大多數(shù)傳統(tǒng)方法,會產(chǎn)生冗長多余的摘要句子。為了擺脫其原始表達(dá)方式,該團(tuán)隊采用了兩種去噪方法,隨機(jī)掩蓋記號和排列段落中句子的順序。這種方法極大地增加了訓(xùn)練示例的數(shù)量。同時還開發(fā)了一個對抗性審核組件,該組件可以區(qū)分句子和段落,此外還有兩個預(yù)訓(xùn)練功能,可優(yōu)化編碼器在提取句子后在段落中的敘述方式。
研究人員在ROCStories上訓(xùn)練了SummAE的三種不同變體,這是一整套自成體系、多樣化、非技術(shù)性。他們將原始的98,159個培訓(xùn)案例分為三個獨(dú)立的培訓(xùn)集、驗證集和測試集,并收集了三個人工摘要,每個摘要分別包含500個驗證示例和500個測試示例。
在進(jìn)行了100,000次預(yù)訓(xùn)練后,研究小組報告顯示,最新神經(jīng)模型明顯優(yōu)于傳統(tǒng)的基線提取句生成器。此外,在一項涉及通過Amazon Mechanical Turk招聘的評估人員的定性研究中,志愿者對三種SummAE模型摘要進(jìn)行了評估,超過80%的人員對SummAE的結(jié)果感到驚訝。
Google Brain表示,段落重建顯示出一定的連貫性,盡管在神經(jīng)生成模型中經(jīng)常會出現(xiàn)一些歧義和錯誤。由于摘要是從與重建相同的潛在向量中解碼的,因此對其進(jìn)行改進(jìn)會產(chǎn)生更精準(zhǔn)的摘要。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > Google發(fā)布智能摘要系統(tǒng)SummAE,可自動生成精準(zhǔn)文章摘要
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國