文章來(lái)源/達(dá)觀數(shù)據(jù) 高翔
什么是智能文檔處理?針對(duì)文本數(shù)據(jù)處理尤其是純文本,大家通常會(huì)想到使用自然語(yǔ)言處理(Natural language processing,NLP)技術(shù)來(lái)解決語(yǔ)義理解及分析處理工作。關(guān)于自然語(yǔ)言處理技術(shù)的研究有很長(zhǎng)歷史,針對(duì)不同層面文本處理和分析有很多技術(shù)點(diǎn),常見(jiàn)技術(shù)例如分詞與詞性標(biāo)注、命名實(shí)體識(shí)別、句法結(jié)構(gòu)分析、文本分類(lèi)、文本摘要等功能。
相較于純文本,文檔的信息表達(dá)更加復(fù)雜,除各種形式的文本信息外,還包括表格、圖片等信息。因此要正確理解文檔中的所有內(nèi)容,僅憑自然語(yǔ)言處理技術(shù)難度很大,需要結(jié)合其他技術(shù)。
智能文檔處理(Intelligence Document Processing, IDP)技術(shù)是針對(duì)文檔內(nèi)容自動(dòng)處理分析的一攬子技術(shù),除自然語(yǔ)言處理技術(shù)外,還包括計(jì)算機(jī)視覺(jué)、文檔解析等相關(guān)底層技術(shù),因此相較于NLP技術(shù),IDP技術(shù)更加復(fù)雜。在IDP技術(shù)中,光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù),文檔解析(Document Parsing,DP)技術(shù)和信息提取(Information Extraction,IE)技術(shù)最為核心關(guān)鍵,使用最為廣泛。
光學(xué)字符識(shí)別技術(shù)主要解決文字以圖像形式展現(xiàn)的問(wèn)題。很多文字信息在文檔中以圖表形式展現(xiàn),甚至很多文檔也以圖像形式保存,因此需要OCR技術(shù)提取文檔中的所有文字及其位置進(jìn)行分析。另外有些P DF文件對(duì)文字內(nèi)容加密,無(wú)法直接拿到字符信息,也需OCR技術(shù)拿到正確文字內(nèi)容。
文檔解析技術(shù)包括不同類(lèi)型文件協(xié)議解析、文檔內(nèi)容統(tǒng)一表示、版面分析技術(shù)、表格解析技術(shù)等,目的是把不同類(lèi)型文檔及其中各類(lèi)元素信息用同一套協(xié)議表示文檔結(jié)構(gòu)及內(nèi)容,包含圖像和語(yǔ)義信息。
信息提取技術(shù)指的是根據(jù)文檔結(jié)構(gòu)及內(nèi)容信息,使用不同算法對(duì)不同文檔元素進(jìn)行信息提取,合并抽取信息結(jié)果,并根據(jù)業(yè)務(wù)需求進(jìn)行輸出。
基于以上核心技術(shù),智能文檔處理的通用流程如下圖所示:
光學(xué)字符識(shí)別技術(shù)相對(duì)成熟,應(yīng)用范圍廣,通常情況下,對(duì)于清晰的圖像,字符識(shí)別準(zhǔn)確率較高。但是特定的場(chǎng)景下,例如透視、模糊、光線不足、高密度文字等情況下,OCR系統(tǒng)的識(shí)別效果下降很大,給實(shí)際場(chǎng)景中圖片形式的文檔處理帶來(lái)困難。
OCR技術(shù)路線通常有兩種:
-
端到端一階段的方法
-
檢測(cè)、識(shí)別二階段的方法
兩種技術(shù)路線各有優(yōu)勢(shì),沒(méi)有絕對(duì)的好壞。端到端的方法優(yōu)勢(shì)在于特定場(chǎng)景效果擬合能力強(qiáng),但缺點(diǎn)是訓(xùn)練較為困難,效果不太可控。對(duì)于一階段方法,達(dá)觀常用于印章、車(chē)牌等特定場(chǎng)景的文字識(shí)別。二階段方法能夠分別在不同步驟達(dá)到最佳效果,并能通過(guò)業(yè)務(wù)干預(yù)不同階段輸出結(jié)果使用較為靈活,因此達(dá)觀常用于通用文檔識(shí)別場(chǎng)景,缺點(diǎn)是需要維護(hù)兩個(gè)獨(dú)立模塊,成本相對(duì)較高。
文本檢測(cè)算法的目的是找出圖像中文本所在位置,通常情況下是以文本片段組成的文本框?yàn)闄z測(cè)目標(biāo),當(dāng)然也有針對(duì)單個(gè)字符的文本檢測(cè)方式。針對(duì)文本檢測(cè),目前分為基于回歸的方法和基于分割的方法。
基于回歸的方法代表算法有CTPN、SegLink、EAST、CRAFT等,這些方法各有優(yōu)劣,在不同情況下存在效果差異問(wèn)題?;诨貧w的方法對(duì)規(guī)則形狀的文本檢測(cè)效果較好,但對(duì)于不規(guī)則文本以及長(zhǎng)文本檢測(cè)效果不佳。
基于實(shí)例分割的代表算法有PSENet、DBNet、FCENet,能夠針對(duì)各種形狀的文本都能夠取得較好的檢測(cè)效果,例如大量使用手機(jī)拍攝導(dǎo)致的文字扭曲變形等問(wèn)題,因此在實(shí)際落地時(shí)使用較多。基于實(shí)例分割方法的缺點(diǎn)是后處理通常比較復(fù)雜,需要針對(duì)后處理部分代碼進(jìn)行特殊優(yōu)化,才能在效果和速度上保證最優(yōu)。
下表展示了常見(jiàn)文字檢測(cè)算法及優(yōu)缺點(diǎn)。
表1 常見(jiàn)文本檢測(cè)算法及優(yōu)缺點(diǎn)
文字識(shí)別技術(shù)路線主要經(jīng)歷三個(gè)階段:
-
以CRNN為代表基于CNN-RNN結(jié)構(gòu)的識(shí)別模型
-
基于Transformer的Encoder-Decoder識(shí)別模型
-
基于Vision-Language視覺(jué)語(yǔ)義融合的模型。
CRNN為代表的模型主要包含兩個(gè)模塊:Vision Model(視覺(jué)特征提取)和Sequence Model(文字轉(zhuǎn)錄)兩個(gè)模塊。視覺(jué)特征提取利用經(jīng)典CNN方式較容易理解,而文字轉(zhuǎn)錄模塊利用Bi-LSTM和CTC解碼將視覺(jué)特征轉(zhuǎn)換成文字序列特征。CRNN模型比較經(jīng)典,并且在大部分場(chǎng)合都能取得較好的效果,使用較廣。缺點(diǎn)是對(duì)于文字變形、遮擋等干擾很敏感,容易誤識(shí)別。
基于Transformer Encoder-Decoder結(jié)構(gòu)的模型,由于能更好地利用上下文信息而提升了準(zhǔn)確率,但由于Transformer模型相對(duì)較重,在實(shí)際使用中需要考慮裁剪蒸餾等方式才能更好落地。
基于Vision-Language的模型,將視覺(jué)和語(yǔ)義進(jìn)行融合,優(yōu)點(diǎn)是能夠獲得更多更準(zhǔn)確的語(yǔ)義信息,有時(shí)會(huì)有較好的效果,但通常模型更大,影響識(shí)別效率。
文字識(shí)別完整流程由圖像矯正、視覺(jué)特征提取、序列特征提取和預(yù)測(cè)解碼組成。一般通用流程如下圖所示:
對(duì)于上述流程涉及的代表性算法介紹如下表格所示:
CTC解碼在文字識(shí)別中是非常經(jīng)典的方法,但在復(fù)雜干擾場(chǎng)景下會(huì)有效果問(wèn)題,而基于Attention的方法對(duì)于困難樣本往往能夠取得較好的效果。這兩種方法是達(dá)觀產(chǎn)品中的主流方法,可根據(jù)場(chǎng)景靈活適配。關(guān)于兩種方法的網(wǎng)絡(luò)結(jié)構(gòu)圖對(duì)比如下圖:
圖 6 兩種文字識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
達(dá)觀對(duì)于OCR技術(shù)的實(shí)踐和優(yōu)化
針對(duì)文檔處理的復(fù)雜場(chǎng)景,沒(méi)有一個(gè)通用的技術(shù)框架和算法能夠解決所有問(wèn)題,需要針對(duì)具體問(wèn)題進(jìn)行多種模型優(yōu)化、流程調(diào)整等工作。針對(duì)文檔OCR識(shí)別,常見(jiàn)問(wèn)題包括文字檢測(cè)遮蓋問(wèn)題、密集小文本目標(biāo)檢測(cè)問(wèn)題等問(wèn)題都需要針對(duì)性解決。
文字遮蓋導(dǎo)致的檢測(cè)問(wèn)題比較常見(jiàn),在實(shí)際場(chǎng)景中,例如印章、水印等遮擋導(dǎo)致底層文字檢測(cè)失效。對(duì)于印章,紅色印章可以通過(guò)通道過(guò)濾取得不錯(cuò)的效果,但是對(duì)于黑章來(lái)說(shuō)難度增加很多。下圖是直觀表述同時(shí)有紅黑兩種印章時(shí),對(duì)于文字檢測(cè)的影響。可以看到右側(cè)黑色背景中間結(jié)果中,紅框范圍內(nèi)文字檢測(cè)存在模糊判斷。
針對(duì)遮蓋問(wèn)題,主要有三種方式優(yōu)化:
-
文檔預(yù)處理消除印章影響,例如紅章通過(guò)顏色通道淡化去除
-
數(shù)據(jù)層面增強(qiáng)印章遮蓋樣本
-
模型層面增加印章分割設(shè)計(jì),強(qiáng)化特征分離。
圖 7 不同顏色印章遮蓋對(duì)于文字檢測(cè)的影響
小目標(biāo)密集文字也是常見(jiàn)的場(chǎng)景,例如銀行流水、表單數(shù)據(jù)、工程圖紙等。由于單獨(dú)的文字區(qū)域占整個(gè)圖像面積較少,加上密度較大,不經(jīng)優(yōu)化會(huì)出現(xiàn)大面積的漏檢、誤檢現(xiàn)象。針對(duì)這種場(chǎng)景,達(dá)觀除增加數(shù)據(jù)層面的積累外,在模型層面進(jìn)行多尺度的特征設(shè)計(jì),大大提升小目標(biāo)的召回率和準(zhǔn)確率。下圖展示對(duì)于流水結(jié)果的檢測(cè)結(jié)果,此優(yōu)化已成功應(yīng)用于實(shí)際產(chǎn)品項(xiàng)目中。
圖 8 銀行流水密集型文字檢測(cè)優(yōu)化
文檔解析技術(shù)是智能文檔處理中另外一項(xiàng)關(guān)鍵技術(shù)。
實(shí)際場(chǎng)景中不同類(lèi)型的文檔在處理中常會(huì)遇到以下問(wèn)題:
-
電子版PDF或掃描件等文件,會(huì)丟失段落、表格等結(jié)構(gòu)化信息;
-
版面與表格等文檔結(jié)構(gòu)信息如何供算法使用;
-
學(xué)術(shù)算法常常面對(duì)結(jié)構(gòu)簡(jiǎn)單規(guī)范的文字形式,與工業(yè)真實(shí)場(chǎng)景存在鴻溝;
-
不同文檔協(xié)議格式表達(dá)復(fù)雜,如何將不同類(lèi)型的文檔統(tǒng)一表示,才能夠滿足不同上下游任務(wù)的處理。
文檔解析主要工作包括以下三個(gè)方面:
-
不同類(lèi)型文件協(xié)議解析,例如PDF、Word、OFD等,需要映射到統(tǒng)一抽象的文檔格式;
-
版面還原,識(shí)別每頁(yè)各種元素,如頁(yè)眉頁(yè)腳、標(biāo)題、段落、表格、插圖、目錄等;
-
表格解析,將表格中的信息準(zhǔn)確還原為二維矩陣結(jié)構(gòu)。
圖 9 工業(yè)界和學(xué)術(shù)界文本處理對(duì)象差異巨大
常見(jiàn)的文檔格式包括Word、PDF(Portable Document Format)、OFD(Open Fixed-layout Document)等,大部分文件協(xié)議的設(shè)計(jì)都以對(duì)象樹(shù)為主要結(jié)構(gòu)。以PDF協(xié)議為例,下圖展示PDF文件的實(shí)際內(nèi)容以及文檔元素對(duì)象的組織結(jié)構(gòu):
圖 10 PDF協(xié)議文檔元素對(duì)象組織結(jié)構(gòu)
PDF格式在渲染展示上有很大優(yōu)勢(shì),能在不同設(shè)備和系統(tǒng)環(huán)境下穩(wěn)定保持渲染內(nèi)容的一致性,對(duì)閱讀友好,但PDF解析編輯相對(duì)困難,因?yàn)镻DF協(xié)議內(nèi)置對(duì)象類(lèi)型有限,一些類(lèi)似表格、頁(yè)眉頁(yè)腳等要素類(lèi)型信息缺失,文字、線條、形狀等要素也只包括內(nèi)容、顏色、大小、位置坐標(biāo)等信息,需要根據(jù)渲染的結(jié)果判斷元素類(lèi)型并進(jìn)一步處理。常見(jiàn)的優(yōu)秀PDF開(kāi)源庫(kù)包括PDFBox、MuPDF、PDFMiner等。OFD由工業(yè)和信息化部軟件司牽頭中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院成立的版式編寫(xiě)組制定的版式文檔國(guó)家標(biāo)準(zhǔn),類(lèi)似PDF,屬于我國(guó)的一種自主格式,例如OFD格式的發(fā)票目前已得到廣泛使用。而基于OpenXML的Word格式docx解析起來(lái)相對(duì)容易,能夠拿到包括樣式在內(nèi)的豐富信息,除微軟官方提供的SDK外,也有很多優(yōu)秀的開(kāi)源項(xiàng)目。
版面還原技術(shù)就是分析文檔中每個(gè)頁(yè)面有哪些類(lèi)型的元素及的各元素大小位置形狀等圖像信息,通常情況下根據(jù)渲染后的頁(yè)面圖像進(jìn)行分析,因此主要使用到計(jì)算機(jī)視覺(jué)技術(shù)。版面還原技術(shù)的意義主要還是和圖像、PDF等文件格式缺乏高層次文檔元素對(duì)象的問(wèn)題相關(guān),例如頁(yè)眉頁(yè)腳在很多業(yè)務(wù)場(chǎng)景中需要被過(guò)濾掉,但在PDF文件中,頁(yè)眉頁(yè)腳只是一個(gè)單純的文本框,僅憑文字信息不足以判斷此文本框是否是頁(yè)眉頁(yè)腳。雖然可以利用有些規(guī)則的過(guò)濾掉頁(yè)眉頁(yè)腳,但規(guī)則通用性較差。除此之外,還需要?jiǎng)澐侄温洹?biāo)題、目錄、表格、插圖等更多頁(yè)面區(qū)域,文檔元素類(lèi)型還可能根據(jù)業(yè)務(wù)場(chǎng)景發(fā)生改變。
基于計(jì)算機(jī)視覺(jué)的方式有較好的通用性,和人類(lèi)觀察文檔版面信息過(guò)程一致,通常使用基于目標(biāo)檢測(cè)方案和圖像分割方案,兩種方案各有優(yōu)缺點(diǎn)。對(duì)于版面還原這個(gè)任務(wù),有明確的業(yè)務(wù)屬性,一個(gè)區(qū)域要么屬于段落,要么屬于表格或者其他類(lèi)型,不會(huì)存在既是段落又是表格的情況,使用目標(biāo)檢測(cè)的方案,就要額外梳理重框問(wèn)題。而使用圖像分割的方案則不存在這個(gè)問(wèn)題,從輸入輸出的角度更適合,但圖像分割資源要求相對(duì)較高,例如基 于FasterRCNN的MaskRCNN,在原模型基礎(chǔ)上擴(kuò)展了一個(gè)Mask分支,速度相對(duì)會(huì)慢一些。
表格是信息承載的重要方式,作為一種半結(jié)構(gòu)化數(shù)據(jù),被大量應(yīng)用于文檔中。對(duì)于表格信息,通常有電子格式(excel、csv、html)和圖像格式兩種形式,電子表格相對(duì)于圖像表格,不僅能夠渲染供閱讀,還可以根據(jù)相關(guān)協(xié)議進(jìn)行指定單元格內(nèi)容的讀取、修改等。此處介紹的表格解析技術(shù)主要解決圖像形式表格結(jié)構(gòu)內(nèi)容識(shí)別問(wèn)題,而不是excel這類(lèi)電子表格識(shí)別問(wèn)題。特別地,電子版PDF文件中的表格由于缺乏相關(guān)協(xié)議,也需要使用圖像方式來(lái)解析。
表格的類(lèi)型一般根據(jù)表格線是否完整也可以將表格劃分成3種類(lèi)型:全線表格、少線表格、無(wú)線表格三種,針對(duì)以上三種表格的解析方法也有差異。
表格解析的目標(biāo)是找到文檔中的所有表格區(qū)域并將表格結(jié)構(gòu)還原成二維矩陣。從技術(shù)框架上看,表格解析有端到端一階段的方式和區(qū)域檢測(cè)、結(jié)構(gòu)解析兩階段的方式。在我們的測(cè)試中,整體準(zhǔn)確性上來(lái)說(shuō)端到端和二階段方法差別不大,但考慮到業(yè)務(wù)上的快速修復(fù)性,達(dá)觀選擇二階段方式。
端到端方式代表性的方法有TableNet、CascadeTabNet等。TableNet采用圖像分割思路,將圖片送入骨干網(wǎng)絡(luò),然后通過(guò)兩個(gè)分支分別生成表格區(qū)域和列的mask,然后通過(guò)規(guī)則生成行,最終得到具體單元格的內(nèi)容。CascadeTabNet基于Cascade R-CNN,先檢測(cè)出表格區(qū)域同時(shí)對(duì)表格類(lèi)型劃分(有線、無(wú)線),然后檢測(cè)單元格區(qū)域,最后根據(jù)表格類(lèi)型做后處理得到最終的表格結(jié)構(gòu)。這些算法在公開(kāi)數(shù)據(jù)集效果不錯(cuò),但因端到端難以解決具體badcase,在實(shí)際業(yè)務(wù)使用上存在一定局限性。
二階段方式主要是表格區(qū)域檢測(cè)和表格線條檢測(cè)兩大塊。表格區(qū)域檢測(cè)問(wèn)題相對(duì)簡(jiǎn)單,基于目標(biāo)檢測(cè)或分割都可以實(shí)現(xiàn),主要問(wèn)題是實(shí)際業(yè)務(wù)定義差異會(huì)影響模型效果,需要在數(shù)據(jù)層面多下功夫。而表格線檢測(cè)是技術(shù)重點(diǎn),因?yàn)楸砀窠馕鏊惴ㄗ罱K可以看作是表格線識(shí)別的問(wèn)題,有了表格中所有表格線,就能還原整個(gè)表格結(jié)構(gòu),解決方法有基于傳統(tǒng)CV的算法和深度學(xué)習(xí)算法。
基于傳統(tǒng)CV的算法,以經(jīng)典的霍夫變換為代表,優(yōu)點(diǎn)是不需要數(shù)據(jù)標(biāo)注且不需GPU資源,算法成熟穩(wěn)定,對(duì)于電子版PDF表格效果很不錯(cuò),但拍照掃描等場(chǎng)景中扭曲、光照等因素導(dǎo)致泛化能力一般,需要在圖像預(yù)處理和后處理下很大功夫。基于深度學(xué)習(xí)的算法,如UNet,優(yōu)點(diǎn)是對(duì)于上述扭曲、變形、光照等泛化能力強(qiáng),缺點(diǎn)是需要大量的數(shù)據(jù)標(biāo)注,計(jì)算資源也比較高。
通過(guò)使用基于深度學(xué)習(xí)的算法,能夠較好解決傳統(tǒng)算法對(duì)于圖像質(zhì)量要求高的問(wèn)題,下面兩圖展示了利用分割的思想識(shí)別表格線的效果,可以看到雖然原圖質(zhì)量不佳,要么線條特別模糊要么整體扭曲透視較為嚴(yán)重,但整體解析效果較好。
不同于傳統(tǒng)純文本實(shí)體識(shí)別,實(shí)際場(chǎng)景中文檔信息提取挑戰(zhàn)更大,主要有以下困難:
-
文字表現(xiàn)形式復(fù)雜,文檔內(nèi)有頁(yè)眉頁(yè)腳、表格、圖片等多種文字信息表達(dá)方法,需要分別處理;
-
領(lǐng)域知識(shí)欠缺,實(shí)際文檔使用詞匯和行業(yè)場(chǎng)景高度相關(guān),例如產(chǎn)品、型號(hào)等專(zhuān)名,需要針對(duì)專(zhuān)有領(lǐng)域數(shù)據(jù)優(yōu)化模型;
-
信息點(diǎn)上下文長(zhǎng)度跨度大,既有短文本實(shí)體信息抽取也有長(zhǎng)上下文抽取,例如招股書(shū),需要抽取公司名稱(chēng)、募集金額等短文本信息,也需要公司概況、高管基本情況等長(zhǎng)文本信息,技術(shù)方案跨度很大;
-
軟硬件資源限制,除單純模型效果外,還要考慮推理時(shí)間、硬件成本這2種度量維度,需要根據(jù)實(shí)際情況靈活選擇平衡。
針對(duì)以上問(wèn)題,不僅需要針對(duì)具體問(wèn)題一一解決,同時(shí)需要設(shè)計(jì)一個(gè)優(yōu)秀的信息提取框架,在實(shí)際使用中能夠靈活配置實(shí)現(xiàn)一種或多種信息提取工作。下文將介紹達(dá)觀在相關(guān)問(wèn)題解決中的經(jīng)驗(yàn)。
相對(duì)純文本抽取,文檔信息抽取有以下區(qū)別:
-
文檔格式眾多,實(shí)際場(chǎng)景文檔類(lèi)型除word等可編輯格式外,還存在PDF、jpg等不可編輯格式,從中拿到文本信息并且符合閱讀順序就很困難。本文前面介紹的文檔解析技術(shù)主要解決不同格式文檔文本信息提取的問(wèn)題,為文本抽取打下基礎(chǔ)。
-
語(yǔ)義上下文跨度大,除傳統(tǒng)的信息點(diǎn)附近上下文信息外,還包括章節(jié)標(biāo)題甚至文檔類(lèi)型等跨度更遠(yuǎn)的上下文信息。
-
高維文本問(wèn)題,文字信息不光和本身的語(yǔ)義信息相關(guān),也和其樣式、形式(例如表格、圖片)相關(guān)。
-
針對(duì)文檔信息抽取相關(guān)研究較少,目前大部分成熟技術(shù)還是基于純文本數(shù)據(jù)研究居多,雖然近幾年多模態(tài)信息抽取、長(zhǎng)文檔信息建模也有不錯(cuò)的研究工作,但實(shí)際落地過(guò)程中少有系統(tǒng)化的成熟經(jīng)驗(yàn)供參考,需要廠商自己開(kāi)發(fā)研究。
針對(duì)文檔抽取,除各類(lèi)算法本身效果優(yōu)化提升外,設(shè)計(jì)一個(gè)功能豐富且合理的抽取框架非常關(guān)鍵。為滿足以上需求,達(dá)觀數(shù)據(jù)設(shè)計(jì)了一套基于微服務(wù)架構(gòu)的抽取框架,通過(guò)將一個(gè)復(fù)雜的抽取任務(wù)分解成多種抽取子任務(wù)單獨(dú)處理,最后再將結(jié)果合并返回最終抽取結(jié)果。
實(shí)際任務(wù)中,根據(jù)文檔類(lèi)型的不同,抽取中心通過(guò)推送不同抽取類(lèi)型消息進(jìn)入隊(duì)列,下游相關(guān)抽取算法模塊進(jìn)行獨(dú)立處理。簡(jiǎn)單的抽取任務(wù)例如對(duì)于財(cái)務(wù)報(bào)表的信息提取,抽取中心只需生成表格單元格抽取信息,并提供表格相關(guān)上下文信息。而復(fù)雜的例如招股書(shū)、債券募集說(shuō)明書(shū)等長(zhǎng)文檔抽取,抽取中心需要按照字段類(lèi)型進(jìn)行不同抽取信息的消息分發(fā),并提供公有上下文和各算法所需私有上下文,下游各類(lèi)型抽取算法模塊同時(shí)工作。上述方案還有一個(gè)優(yōu)點(diǎn)是針對(duì)特殊場(chǎng)景的抽取,可以靈活裁剪服務(wù)類(lèi)型,或根據(jù)業(yè)務(wù)量針對(duì)性調(diào)整某類(lèi)抽取算法服務(wù)副本數(shù)達(dá)到資源和業(yè)務(wù)量的平衡。
在算法設(shè)計(jì)上,除之前基于聯(lián)合標(biāo)注的序列標(biāo)注抽取實(shí)體關(guān)系的工作外,達(dá)觀也嘗試使用統(tǒng)一信息抽?。║IE)框架。因?yàn)檫_(dá)觀IDPS平臺(tái)除實(shí)體抽取任務(wù)外,還支持關(guān)系抽取、元素抽取等任務(wù),不同任務(wù)類(lèi)型的網(wǎng)絡(luò)結(jié)構(gòu)差異導(dǎo)致數(shù)據(jù)和預(yù)訓(xùn)練模型復(fù)用受限造成資源浪費(fèi),系統(tǒng)也更復(fù)雜。通過(guò)設(shè)置不同抽取類(lèi)型的Schema,利用UIE端到端生成結(jié)構(gòu)化結(jié)果的思想,可以完成單模型多任務(wù)的抽取效果。
表 3 不同任務(wù)在UIE下的schema設(shè)計(jì)及效果
當(dāng)前以大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型為基礎(chǔ)進(jìn)行語(yǔ)義表示,下游再根據(jù)任務(wù)類(lèi)型設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),已成為各類(lèi)NLP任務(wù)的基本范式,在很多場(chǎng)景任務(wù)下不僅整體性能更好,所需要的標(biāo)注數(shù)據(jù)也更少。但公開(kāi)的預(yù)訓(xùn)練語(yǔ)言模型通常使用通用語(yǔ)料數(shù)據(jù)訓(xùn)練,在遷移到特定領(lǐng)域下游任務(wù)時(shí)效果會(huì)打折扣。最主要的原因就是領(lǐng)域間數(shù)據(jù)分布差異很大。
具體表現(xiàn)如下:
-
訓(xùn)練數(shù)據(jù)不一致。例如金融場(chǎng)景的特定詞匯如股票、基金、利率、資產(chǎn)等詞匯概率遠(yuǎn)高于其他領(lǐng)域語(yǔ)料;
-
預(yù)測(cè)標(biāo)簽分布不同,例如在金融危機(jī)相關(guān)數(shù)據(jù),負(fù)面標(biāo)簽遠(yuǎn)多于正面標(biāo)簽次數(shù);
-
上下文信息不一致,例如在表格數(shù)據(jù)中,上下文信息不僅包括同一單元格內(nèi)相鄰文字,也包含相同單元格、行表頭、列表頭等。
為解決領(lǐng)域自適應(yīng)問(wèn)題,研究方向主要分為以模型為中心的方法和以數(shù)據(jù)為中心的方法。從實(shí)現(xiàn)方式上來(lái)說(shuō),使用以數(shù)據(jù)為中心的方法更加靈活,應(yīng)用面更廣,并可持續(xù)訓(xùn)練迭代。在實(shí)踐中,達(dá)觀數(shù)據(jù)已服務(wù)眾多證券、銀行等金融機(jī)構(gòu),積累了大量的金融領(lǐng)域語(yǔ)料和相關(guān)下游任務(wù)訓(xùn)練數(shù)據(jù),在金融領(lǐng)域的繼續(xù)預(yù)訓(xùn)練語(yǔ)言模型可以解決領(lǐng)域知識(shí)、數(shù)據(jù)分布上存在的差異,提高金融文檔相關(guān)的NLP下游任務(wù)的效果。
具體來(lái)講有以下兩方面工作:
-
數(shù)據(jù)處理層面,收集從公開(kāi)網(wǎng)站上獲取的金融財(cái)經(jīng)新聞公告等數(shù)據(jù),結(jié)合達(dá)觀積累的金融領(lǐng)域文本數(shù)據(jù),經(jīng)數(shù)據(jù)清理后得到數(shù)百萬(wàn)條預(yù)訓(xùn)練文本數(shù)據(jù)
-
模型設(shè)計(jì)層面,選用中文 RoBERTa 作為基礎(chǔ)模型,采用 whole word masking 的掩碼方式,進(jìn)行繼續(xù)預(yù)訓(xùn)練。經(jīng)過(guò)測(cè)試,使用迭代后調(diào)優(yōu)后的預(yù)訓(xùn)練語(yǔ)言模型在各個(gè)金融領(lǐng)域的下游任務(wù)中,效果普遍提升2~3%
另外從使用角度上來(lái)看,領(lǐng)域遷移需要大量的技術(shù)知識(shí),對(duì)使用人員算法技術(shù)要求高,而達(dá)觀IDPS產(chǎn)品的使用人員更多是業(yè)務(wù)老師、知識(shí)工程師等非技術(shù)人員,因此借鑒AutoML的思想,讓系統(tǒng)能夠在有限的迭代次數(shù)內(nèi)探索最優(yōu)模型和超參,并自動(dòng)集成。具體來(lái)說(shuō),會(huì)考慮訓(xùn)練文檔的頁(yè)數(shù)分布數(shù)據(jù)、標(biāo)注數(shù)據(jù)的頁(yè)碼位置分布、機(jī)器性能資源等多種信息進(jìn)行自動(dòng)學(xué)習(xí),在干預(yù)較少的情況下得到相對(duì)較優(yōu)的模型效果。
通用文本抽取技術(shù)研究所需處理的文本上下文較短,例如Bert可處理長(zhǎng)度512個(gè)字符,能夠滿足大部分場(chǎng)景,如果超過(guò)此長(zhǎng)度需要進(jìn)行窗口滑動(dòng)。在實(shí)際場(chǎng)景中,例如招股書(shū)抽取,上下文長(zhǎng)度遠(yuǎn)超512個(gè)字符。
通常長(zhǎng)文本抽取有以下困難:
-
數(shù)據(jù)量少,正樣本過(guò)于稀疏;
-
數(shù)據(jù)分布不均衡,負(fù)樣本遠(yuǎn)比正樣本多,而且Easy Negative 數(shù)據(jù)遠(yuǎn)比 Hard Negative 數(shù)據(jù)要多,導(dǎo)致在訓(xùn)練過(guò)程中,經(jīng)過(guò)少量迭代就會(huì)被模型充分學(xué)習(xí)并正確預(yù)測(cè),導(dǎo)致數(shù)據(jù)中的“困難負(fù)樣本”和正樣本對(duì)模型訓(xùn)練迭代的影響過(guò)低,無(wú)法被充分學(xué)習(xí);
-
端到端方式缺乏靈活性,實(shí)際使用受限,SOTA 方法常使用端到端的方式,但工業(yè)場(chǎng)景常常需要精準(zhǔn)監(jiān)控各環(huán)節(jié)貢獻(xiàn)和精準(zhǔn)優(yōu)化各個(gè)模塊。
為解決以上問(wèn)題,除修改模型結(jié)構(gòu)、參數(shù)讓傳統(tǒng)經(jīng)典網(wǎng)絡(luò)更好建模長(zhǎng)文本外,也可以通過(guò)業(yè)務(wù)特征進(jìn)行流程優(yōu)化,主要思想是根據(jù)關(guān)鍵詞或者相關(guān)標(biāo)題上下文,將訓(xùn)練或預(yù)測(cè)數(shù)據(jù)預(yù)處理,僅在有限的文檔區(qū)域內(nèi)建模,減少負(fù)樣本帶來(lái)的數(shù)據(jù)不均衡問(wèn)題,同時(shí)能大大提升訓(xùn)練、預(yù)測(cè)速度。例如達(dá)觀使用章節(jié)拆分定位技術(shù),利用文檔解析得到的文檔目錄結(jié)構(gòu),根據(jù)標(biāo)注數(shù)據(jù)縮小建模范圍,例如可以將實(shí)體抽取范圍定位到某章甚至某些段落中,將幾百頁(yè)的上下文信息壓縮到最相關(guān)的幾個(gè)自然段,提升模型性能,在實(shí)踐中取得非常好的效果。
一般學(xué)術(shù)研究最重要的優(yōu)化目標(biāo)是效果,對(duì)于資源、時(shí)間的考量權(quán)重相對(duì)較低,而工業(yè)落地往往相較于學(xué)術(shù)界更注重于時(shí)間、空間與效果的綜合結(jié)果,我們稱(chēng)之為三維度量。在工業(yè)落地中,客戶軟硬件差距巨大,需要適配不同部署硬件方案,并可能會(huì)有硬件瓶頸導(dǎo)致方案大改,例如有些客戶沒(méi)有GPU或相關(guān)資源非常有限,導(dǎo)致基于深度學(xué)習(xí)的算法方案受限。與此同時(shí),項(xiàng)目目標(biāo)考察點(diǎn)也不僅僅只關(guān)注效果,也需要關(guān)注使用時(shí)的響應(yīng)時(shí)間、處理能力等多種因素,需要根據(jù)實(shí)際情況多方面權(quán)衡。另外由于實(shí)際場(chǎng)景資源有限,需要充分利用已有資源,不同任務(wù)合理使用資源、靈活支撐業(yè)務(wù)流量變化,對(duì)于系統(tǒng)的架構(gòu)和調(diào)度能力提出很大要求。
為了能夠滿足三維度量評(píng)價(jià)體系,實(shí)際生產(chǎn)中對(duì)于具體模型需要使用裁剪、蒸餾、量化等方式進(jìn)行模型體積、資源占用優(yōu)化的同時(shí),也希望能夠盡量保證原有模型效果,挑戰(zhàn)比較大。在實(shí)踐中,達(dá)觀總結(jié)多套成熟的系統(tǒng)算法配置,根據(jù)項(xiàng)目需求選擇最佳配置自動(dòng)完成相關(guān)優(yōu)化工作。例如Bert蒸餾,教師網(wǎng)絡(luò)使用經(jīng)典base Bert模型,共有12層網(wǎng)絡(luò)及超過(guò)20M的參數(shù)保證數(shù)據(jù)擬合準(zhǔn)確性,而學(xué)生網(wǎng)絡(luò)根據(jù)實(shí)際場(chǎng)景資源限制使用小8倍的tiny Bert甚至Bi-LSTM保證預(yù)測(cè)精度。下圖展示達(dá)觀IDPS中使用的知識(shí)蒸餾流程。
圖 17 知識(shí)蒸餾在達(dá)觀IDPS中的使用
另外在服務(wù)架構(gòu)上,考慮到資源受限尤其是GPU資源受限問(wèn)題,將模型網(wǎng)絡(luò)拆分,將重計(jì)算且多任務(wù)公用的語(yǔ)義編碼網(wǎng)絡(luò)獨(dú)立出來(lái)作為服務(wù)并部署在有限的GPU資源上,通過(guò)遠(yuǎn)程調(diào)用支撐各個(gè)下游任務(wù)。達(dá)觀基于此提出Transformer as a Service的方案,此方案的優(yōu)勢(shì)是方便對(duì) GPU 資源進(jìn)行集中管理,使用 Redis等中間件實(shí)現(xiàn)分布式緩存,優(yōu)化整個(gè)大任務(wù)的耗時(shí),并能很好支持跨環(huán)境、跨架構(gòu)的不同服務(wù)(很多客戶CPU和GPU機(jī)器獨(dú)立部署運(yùn)維),同時(shí)方便預(yù)訓(xùn)練語(yǔ)言模型整體效果的迭代、優(yōu)化。經(jīng)過(guò)驗(yàn)證,在損失1個(gè)點(diǎn)左右精度的效果情況下,整體資源要求大幅降低,并已使用在多個(gè)項(xiàng)目中。
圖 18 Transformer As Service 的使用示例
前文介紹了智能文檔處理中的一些關(guān)鍵技術(shù)的原理及使用,雖受制于內(nèi)容較多篇幅有限,但仍可以看到相對(duì)于純NLP或者CV,智能文檔處理系統(tǒng)更加復(fù)雜,且系統(tǒng)化研究工作較少,需要長(zhǎng)期投入較多資源深入研發(fā)。又因?yàn)樘幚韺?duì)象是文檔,和實(shí)際工作結(jié)合緊密,因此往往實(shí)際落地時(shí)被要求和人工對(duì)比,效果要求很高。整體來(lái)看,智能文檔處理在實(shí)際場(chǎng)景中的落地工作主要有以下三方面問(wèn)題:
場(chǎng)景選擇問(wèn)題是很多項(xiàng)目落地的關(guān)鍵問(wèn)題。隨著人工智能技術(shù)的發(fā)展,之前很多困難的問(wèn)題得到解決或者改善,例如語(yǔ)音識(shí)別、人臉識(shí)別等技術(shù)已經(jīng)比較成熟并在多個(gè)場(chǎng)景中使用,給AI相關(guān)技術(shù)項(xiàng)目的落地增強(qiáng)了信心。對(duì)于智能文檔文檔處理領(lǐng)域,很多項(xiàng)目場(chǎng)景中對(duì)于文檔處理部分,希望能夠借助IDP技術(shù)提高效率,通常情況合理的使用流程可以達(dá)到這個(gè)目標(biāo)。
然而實(shí)際中,因?yàn)镮DP系統(tǒng)對(duì)標(biāo)是白領(lǐng)工作者,加上對(duì)于AI能力認(rèn)知偏差,導(dǎo)致很多場(chǎng)景中對(duì)于IDP系統(tǒng)的使用方式和效果要求不合理,最常見(jiàn)的誤區(qū)就是希望系統(tǒng)完全代替人工整個(gè)流程百分百由機(jī)器執(zhí)行,并且整體準(zhǔn)確率超過(guò)人工。機(jī)器對(duì)于人工來(lái)說(shuō)最大的優(yōu)勢(shì)就是速度和細(xì)致,但是對(duì)于文檔處理這種智力密集型工作來(lái)說(shuō),一些復(fù)雜業(yè)務(wù)場(chǎng)景尤其是需要邏輯思考的文檔處理,系統(tǒng)的處理效果還是比人工稍遜。因此在這種場(chǎng)景下,比較合適的方式是機(jī)器預(yù)處理,解決一些簡(jiǎn)單的問(wèn)題,再由人工復(fù)核,提升整體效率,例如債券募集說(shuō)明書(shū)的審核,目前很多券商已經(jīng)成功使用機(jī)器預(yù)審人工復(fù)核的方式提升效率。而對(duì)于簡(jiǎn)單的場(chǎng)景,或者有相關(guān)系統(tǒng)能夠進(jìn)行業(yè)務(wù)校驗(yàn)的場(chǎng)景,則可以完全使用機(jī)器,例如財(cái)務(wù)報(bào)銷(xiāo)、財(cái)務(wù)合同審核等,只要關(guān)鍵信息點(diǎn)和外部數(shù)據(jù)交叉驗(yàn)證沒(méi)有問(wèn)題,即可自動(dòng)通過(guò),而有問(wèn)題的文檔再通過(guò)人工處理。因此合理的場(chǎng)景選擇,人機(jī)交互的流程設(shè)計(jì)非常重要,能夠?qū)崿F(xiàn)最終整體的項(xiàng)目目標(biāo)。
業(yè)務(wù)知識(shí)問(wèn)題是另外一個(gè)常見(jiàn)問(wèn)題。之前討論的IDP核心技術(shù)和業(yè)務(wù)知識(shí)聯(lián)系較少,在實(shí)際場(chǎng)景中,系統(tǒng)對(duì)于業(yè)務(wù)知識(shí)的缺失甚至比模型數(shù)據(jù)匱乏更嚴(yán)重,例如相同的合同,法務(wù)和財(cái)務(wù)所關(guān)心的業(yè)務(wù)信息點(diǎn)有很大差異,僅有財(cái)務(wù)知識(shí)不能完成法務(wù)審核。業(yè)務(wù)知識(shí)本質(zhì)上不是一個(gè)AI問(wèn)題,是根據(jù)場(chǎng)景總結(jié)的工作要求或經(jīng)驗(yàn),這種知識(shí)邏輯現(xiàn)階段AI系統(tǒng)很難準(zhǔn)確學(xué)到,通常需要通過(guò)編碼方式表達(dá),或通過(guò)知識(shí)圖譜進(jìn)行一定的知識(shí)推理。因此實(shí)際落地過(guò)程中,業(yè)務(wù)分析師和知識(shí)工程師角色非常重要,需要梳理實(shí)際的業(yè)務(wù)流程和相關(guān)信息點(diǎn),并配合編碼人員進(jìn)行程序編寫(xiě),模型訓(xùn)練,最終業(yè)務(wù)知識(shí)和AI模型配合才能完成具體業(yè)務(wù)工作。對(duì)于IDP系統(tǒng),業(yè)務(wù)知識(shí)沉淀的深度和廣度尤為關(guān)鍵,需要項(xiàng)目上不停積累。
產(chǎn)品化是關(guān)系到智能文檔處理具體落地的成本和范圍最關(guān)鍵的因素。不同于其他AI產(chǎn)品,IDP產(chǎn)品面向?qū)嶋H業(yè)務(wù),因此使用人員的主體除技術(shù)人員外,業(yè)務(wù)人員占大多數(shù),如何設(shè)計(jì)產(chǎn)品交互,組合產(chǎn)品功能,讓業(yè)務(wù)人員更容易上手是關(guān)鍵問(wèn)題,很多技術(shù)概念知識(shí)點(diǎn)需要經(jīng)過(guò)產(chǎn)品包裝,不能技術(shù)思維為導(dǎo)向。于此同時(shí),也要滿足不同場(chǎng)景中模型和業(yè)務(wù)的快速訂制工作,底層核心技術(shù)能力要容易被二次開(kāi)發(fā)方便技術(shù)人員使用,例如模型調(diào)參、接口調(diào)用等技術(shù)功能的豐富性也很重要。好的產(chǎn)品設(shè)計(jì)應(yīng)該要滿足上述兩點(diǎn),根據(jù)用戶角設(shè)計(jì)產(chǎn)品功能和界面,該簡(jiǎn)單時(shí)簡(jiǎn)單,該復(fù)雜時(shí)復(fù)雜。
另外針對(duì)具體的業(yè)務(wù)場(chǎng)景,產(chǎn)品化對(duì)于項(xiàng)目復(fù)制幫助很大。當(dāng)業(yè)務(wù)場(chǎng)景比較具體時(shí),說(shuō)明相關(guān)業(yè)務(wù)知識(shí)比較清晰,數(shù)據(jù)類(lèi)型比較固定。如果此場(chǎng)景是行業(yè)通用,則可以花較多時(shí)間針對(duì)性優(yōu)化模型效果,豐富業(yè)務(wù)知識(shí),甚至進(jìn)行產(chǎn)品界面改造升級(jí)。例如達(dá)觀在IDPS系統(tǒng)平臺(tái)基礎(chǔ)上,結(jié)合業(yè)務(wù)場(chǎng)景知識(shí),開(kāi)發(fā)出的智能流水審核、募集書(shū)審核、財(cái)報(bào)審核等產(chǎn)品,能夠做到開(kāi)箱即用,大大方便項(xiàng)目交付降低成本,而且從本質(zhì)上來(lái)講,上述產(chǎn)品是IDP核心技術(shù)基礎(chǔ)上,結(jié)合行業(yè)知識(shí),進(jìn)行模型優(yōu)化改進(jìn)的一個(gè)個(gè)產(chǎn)品插件,可以不斷積累,讓IDP的產(chǎn)品能力越來(lái)越強(qiáng),也能反推IDP相關(guān)技術(shù)不斷提升,解決更多的場(chǎng)景問(wèn)題。
相信隨著技術(shù)和產(chǎn)品的發(fā)展,智能文檔處理IDP能夠應(yīng)對(duì)更廣更深的文檔處理工作,達(dá)觀數(shù)據(jù)也會(huì)持續(xù)投入相關(guān)產(chǎn)品技術(shù)研發(fā),深耕行業(yè)場(chǎng)景應(yīng)用,為眾多客戶持續(xù)創(chuàng)造更大的價(jià)值。
高翔,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人,達(dá)觀智能文檔審閱IDP和OCR總負(fù)責(zé)人。自然語(yǔ)言處理技術(shù)專(zhuān)家,上海交通大學(xué)通信專(zhuān)業(yè)碩士,上海交通大學(xué)校友會(huì)AI分會(huì)副秘書(shū)長(zhǎng),復(fù)旦大學(xué)校外研究生導(dǎo)師,2019年獲上海市“青年科技啟明星”人才稱(chēng)號(hào),首批上海市人工智能高工職稱(chēng)獲得者。
繼續(xù)閱讀:
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 智能文檔處理IDP關(guān)鍵技術(shù)與實(shí)踐-高翔
熱門(mén)信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)