在瞬息萬(wàn)變的數(shù)字化時(shí)代,快速準(zhǔn)確地處理文檔數(shù)據(jù)是保持競(jìng)爭(zhēng)力的關(guān)鍵。在今天的文章中,我們先來(lái)討論數(shù)字化和光學(xué)字符識(shí)別(OCR)。然后再分析公司如何使用AI支持的文檔識(shí)別來(lái)擴(kuò)展OCR,從而通過(guò)更好的文檔理解功能來(lái)推動(dòng)價(jià)值。
第一階段:使用OCR將離線數(shù)據(jù)轉(zhuǎn)換為在線數(shù)據(jù)
傳統(tǒng)的文檔處理實(shí)踐很繁瑣。許多公司仍然面臨著諸多挑戰(zhàn),比如不正確的標(biāo)簽以及由于非數(shù)字化文檔處理而導(dǎo)致的手動(dòng)數(shù)據(jù)提取會(huì)浪費(fèi)大量時(shí)間。
現(xiàn)在,很多公司正在借助數(shù)字化轉(zhuǎn)型來(lái)應(yīng)對(duì)這些挑戰(zhàn)。2019年M-Files的調(diào)查顯示,41%的受訪者計(jì)劃用電子表格替換紙質(zhì)表格; 70%的受訪者計(jì)劃將文檔處理擴(kuò)展到更多的數(shù)字文檔,而2018年這個(gè)比例只有39%。
很多文檔處理的專(zhuān)業(yè)企業(yè)已借助數(shù)字化技術(shù)來(lái)將物理文檔轉(zhuǎn)換為數(shù)字格式。而這些過(guò)程的核心就是OCR。OCR技術(shù)可識(shí)別物理材料和圖像中的文本,然后將文本轉(zhuǎn)換為數(shù)字文件,例如PDF。
使用OCR的解決方案對(duì)于幫助減輕文檔處理的麻煩至關(guān)重要。但是,傳統(tǒng)的OCR技術(shù)有其局限性的。
第二階段:從在線數(shù)據(jù)轉(zhuǎn)移到“智能OCR”
在以前的處理中,我們都是先給文檔拍照或?qū)⑽臋n掃描到選擇的系統(tǒng)中?,F(xiàn)在,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)和提取取決于所掃描圖像的質(zhì)量。為什么這對(duì)于使用OCR的文檔處理解決方案很重要呢?
OCR解決方案與處理的基礎(chǔ)文檔的質(zhì)量緊密相關(guān)。當(dāng)OCR軟件無(wú)法區(qū)分字符時(shí)就會(huì)帶來(lái)挑戰(zhàn),例如'3'與'8'或'O'與'D'。當(dāng)OCR技術(shù)無(wú)法根據(jù)文檔的質(zhì)量或原始格式來(lái)分析文檔的細(xì)微差別時(shí),使用OCR軟件可能會(huì)成為新的難題。
此時(shí),AI驅(qū)動(dòng)的文檔識(shí)別將發(fā)揮關(guān)鍵作用。
隨著AI功能的發(fā)展,很多公司已開(kāi)始創(chuàng)建和訓(xùn)練機(jī)器學(xué)習(xí)(ML)模型以應(yīng)用于OCR?;谀P偷腛CR引擎或者所謂的智能OCR引擎,能在將文檔和文本大規(guī)模數(shù)字化的同時(shí),減少錯(cuò)誤。
智能OCR可幫助公司數(shù)字化文檔和圖像,而這些文檔和圖像以前被證明是傳統(tǒng)OCR系統(tǒng)所面臨的挑戰(zhàn),例如手寫(xiě)字母,復(fù)選框和劃線。
第三階段:使用AI進(jìn)行更好的數(shù)據(jù)提取和文檔分類(lèi)
將文檔轉(zhuǎn)換為數(shù)字格式是從文檔本身獲取價(jià)值的諸多步驟中的第一步。如果進(jìn)行數(shù)字化,OCR軟件必須了解所使用文檔的類(lèi)型以及相關(guān)內(nèi)容。
使用傳統(tǒng)OCR軟件的公司可能難以擴(kuò)展文檔分類(lèi)工作。傳統(tǒng)的OCR引擎使用簡(jiǎn)單的方法(例如標(biāo)頭識(shí)別)對(duì)文檔類(lèi)型進(jìn)行分類(lèi)。這種方法可能會(huì)限制公司在粒度級(jí)別上對(duì)文檔進(jìn)行分類(lèi)的能力。
一旦使用傳統(tǒng)的OCR解決方案對(duì)文檔進(jìn)行分類(lèi),公司通常僅限于文檔模板、預(yù)定義的“配方”,或者用于在文檔中查找該字段的“規(guī)則”。客戶可以基于數(shù)據(jù)中的重復(fù)模式、文檔中的位置以及相對(duì)于文檔中易于找到的其他內(nèi)容(例如徽標(biāo))的位置來(lái)創(chuàng)建規(guī)則。雖然模板是一個(gè)自然的起點(diǎn),但它們是靜態(tài)的。
隨著文檔處理工作規(guī)模的擴(kuò)大,公司就需要投資于模板管理和新模板創(chuàng)建,來(lái)處理最初實(shí)施中不相關(guān)的文檔變體。
但在文檔分類(lèi)和數(shù)據(jù)提取中利用AI的優(yōu)勢(shì)改變了這一狀態(tài),讓整個(gè)過(guò)程變得更加容易。
如果想要獲得數(shù)字格式的數(shù)據(jù),就可以使用經(jīng)過(guò)訓(xùn)練的模型來(lái)更深入地研究文檔,以對(duì)文檔類(lèi)型進(jìn)行分類(lèi)并以結(jié)構(gòu)化方式提取相關(guān)信息。
基于模型的OCR解決方案可以識(shí)別文檔類(lèi)型,然后與企業(yè)使用的已知文檔類(lèi)型進(jìn)行匹配。他們還可以解析和理解非結(jié)構(gòu)化文檔中的文本塊。一旦解決方案對(duì)文檔本身有了更多了解,它就可以開(kāi)始根據(jù)意圖和含義提取相關(guān)信息。
客戶不需要?jiǎng)?chuàng)建模板就可以定義所需的字段(文檔的分類(lèi)法),然后教ML模型查找這些字段。該模型還能夠根據(jù)傳入的文檔進(jìn)行自我調(diào)整,并從人工驗(yàn)證的已處理文檔中學(xué)習(xí)。
這些功能賦予了文檔處理解決方案更大的靈活性、伸縮性。這些輸出還為數(shù)據(jù)使用開(kāi)啟了新的大門(mén)。
第四階段:使用AI賦予新的洞察力和行動(dòng)
使用AI進(jìn)行文檔分類(lèi)和數(shù)據(jù)提取是整個(gè)過(guò)程中邁出的重要一步,可為組織提供自動(dòng)化和準(zhǔn)確的文檔處理功能。從長(zhǎng)遠(yuǎn)來(lái)看,客戶可以開(kāi)始制定路線圖的方式來(lái)利用AI功能,然后對(duì)提取的文本進(jìn)行更多處理。
使用AI,客戶可以通過(guò)引用來(lái)自多個(gè)文檔或來(lái)自各種后端系統(tǒng)的數(shù)據(jù)來(lái)驗(yàn)證錯(cuò)誤。例如,假設(shè)發(fā)票金額不正確(該錯(cuò)誤不是OCR流程中的錯(cuò)誤)。要找到問(wèn)題的根源,可以借助機(jī)器人組合來(lái)提取許多文檔類(lèi)型和系統(tǒng)中的數(shù)據(jù)。這有助于交叉檢查那些在OCR流程本身范圍之外的數(shù)據(jù)、表面異常和錯(cuò)誤。
客戶還可以開(kāi)始將人工智能功能隨著時(shí)間的推移和歷史背景應(yīng)用于數(shù)據(jù)集,以做出預(yù)測(cè)并識(shí)別可能指示欺詐的潛在異常。以保險(xiǎn)索賠處理為例子,該過(guò)程的第一步是將索賠數(shù)字化。然后,從索賠中提取相關(guān)信息(例如索賠日期,性質(zhì)和金額)。接下來(lái)查看這些數(shù)據(jù)點(diǎn),并使用ML模型來(lái)識(shí)別特定的索賠,這些索賠對(duì)于給定的變量(如重復(fù)發(fā)生和可疑金額)可能是欺詐性的。
借助AI執(zhí)行上述類(lèi)型的任務(wù)是完全可能的,使用AI擴(kuò)展OCR,可以使文檔處理成為流程中更有價(jià)值且不那么乏味的部分。
特別聲明:
文章來(lái)源:UiPath RPA社區(qū)(UiPathChina)
原文鏈接:https://mp.weixin.qq.com/s/EGZ18OWrHVmfLFnueCIzBQ
RPA中國(guó)推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來(lái)源標(biāo)注錯(cuò)誤或侵權(quán),請(qǐng)聯(lián)系更正或刪除,謝謝。
繼續(xù)閱讀:AI OCR 數(shù)據(jù)提取 智能OCR
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 如何使用AI優(yōu)化文檔理解?
熱門(mén)信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)