UiPath PDF數(shù)據(jù)提取
PDF一直是存儲(chǔ)數(shù)據(jù)最可靠的格式之一。從大型公司到小型企業(yè),每個(gè)人都以這種格式存儲(chǔ)各種數(shù)據(jù)。但是,想象一下,如果必須從這些PDF文檔中提取原始數(shù)據(jù)。可以手動(dòng)完成嗎?好吧,簡單的答案是否定的,因?yàn)檫@是一項(xiàng)相當(dāng)繁瑣的工作,但是,如果您熟悉自動(dòng)化中的某些服務(wù),那么您可以輕松地自動(dòng)執(zhí)行此過程。
這篇關(guān)于UiPath PDF數(shù)據(jù)提取的文章將向您簡要介紹UiPath提供的從PDF中提取數(shù)據(jù)的所有方式,無論是原生文本格式還是掃描圖像。
為了便于您理解,我將本文分為以下兩個(gè)部分:
- 提取大文本
- 提取特定元素
在真正開始提取數(shù)據(jù)之前,需要確保的一件重要事情是從系統(tǒng)上安裝的Manage Packages部分獲得UiPath.PDF.Activities。選擇軟件包后,單擊“保存”,軟件包將開始安裝。請(qǐng)參閱下圖。
圖1:管理包的快照 - UiPath PDF數(shù)據(jù)提取
在我們繼續(xù)之前,如果您想學(xué)習(xí)使用UiPath從PDF中提取數(shù)據(jù),可以參考以下視頻。該視頻將幫助您獲得數(shù)據(jù)提取的實(shí)踐經(jīng)驗(yàn)。
UiPath PDF數(shù)據(jù)提取
Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.
現(xiàn)在,您知道必須安裝哪個(gè)軟件包后,下面介紹如何在PDF文檔中提取大型文本。
提取大文本
可能存在這樣的情況:我們有一個(gè)完全充滿文本的文檔,或者文本和圖像的混合。那么,提取大型文本屬于這種文檔,其中文檔僅包含文本或文本和圖像的混合。
UiPath主要提供兩種選項(xiàng)來提取大型文本。分別是:
- 閱讀PDF文本
- 閱讀帶有OCR的PDF
除此之外,我們還有屏幕抓取方式。讓我們從閱讀PDF文本開始。
閱讀PDF文本
Read PDF用于從僅包含Text 的PDF文件中提取數(shù)據(jù)。因此,如果PDF中存在圖像,則此活動(dòng)將不是要選擇的正確活動(dòng),因?yàn)樗粫?huì)提取圖像中存在的數(shù)據(jù)。
在此之前,您可以參考下面的圖片,其中展示了我將用于此文章的示例PDF文件。在PDF文檔中,上半部分是文本,引用的部分是圖像。
現(xiàn)在,我將創(chuàng)建一個(gè)序列,在其中我將提到必須從中提取數(shù)據(jù)的PDF目錄,并且我將在消息框中編寫輸出。
注意: 您可以將輸出寫入任何格式的文件,如寫文本文件,寫入行,寫入單元格活動(dòng)等。
第1步:創(chuàng)建一個(gè)序列并重命名。在這里,我將其重命名為Extract Text。
第2步:拖放“ 閱讀PDF文本活動(dòng)”。在活動(dòng)中,請(qǐng)?zhí)峒氨仨殢闹刑崛?shù)據(jù)的PDF文檔的路徑。
第3步:現(xiàn)在,在屬性面板中閱讀PDF文本活動(dòng),提一個(gè)輸出變量查看輸出。要設(shè)置輸出變量,請(qǐng)按CTRL + K,然后輸入名稱。這里我提到了輸出。
步驟4:之后,在序列中拖放一個(gè)消息框,然后在其中提及輸出變量。
完整序列和輸出應(yīng)分別如下面的圖片所示。
Fig 2: Snapshot of Read PDF Text Activity with
圖2:使用輸出讀取PDF文本活動(dòng)的圖片 - UiPath PDF數(shù)據(jù)提取
在這里,您可以清楚地看到我們圖像中存在的文本未被提取,并且僅提取了樣本PDF文檔中存在的文本。那么,你們就可以使用“閱讀PD??F文本活動(dòng)”。
現(xiàn)在,轉(zhuǎn)到下一個(gè)活動(dòng),即使用OCR活動(dòng)讀取PDF。
閱讀帶有OCR活動(dòng)的PDF
帶有OCR活動(dòng)的閱讀PDF用于從包含文本和圖像的PDF文檔中提取數(shù)據(jù)。因此,如果除文檔中的文本外還有其他圖像,此活動(dòng)將從這些圖像中提取數(shù)據(jù)并提供文本輸出。
正如活動(dòng)的名稱所示,此活動(dòng)使用光學(xué)字符識(shí)別來掃描PDF文檔內(nèi)的圖像,并將所有文本輸出為變量。所以它需要一個(gè)OCR引擎。在“ 活動(dòng)窗格”中,如果搜索OCR引擎,您將獲得已安裝引擎的列表。請(qǐng)參閱上圖。
現(xiàn)在,我將創(chuàng)建一個(gè)序列,在其中我將提到PDF的目錄,從中提取數(shù)據(jù),我將在消息框中寫入輸出。唯一的區(qū)別是,您將看到圖像中的文本也被提取出來。
按照以下步驟,創(chuàng)建自動(dòng)化以提取圖像中存在的文本。
第1步:創(chuàng)建一個(gè)序列并重命名。在這里,我已將其重命名為使用OCR提取文本。
步驟2.1:拖放帶有OCR活動(dòng)的閱讀PDF。在活動(dòng)中,請(qǐng)?zhí)峒氨仨殢闹刑崛?shù)據(jù)的PDF文檔的路徑。
步驟2.2:現(xiàn)在,搜索OCR引擎,并根據(jù)安裝的任何一個(gè)拖放OCR引擎。在這里,我使用了Google OCR Engine。
步驟3:現(xiàn)在,在具有OCR活動(dòng)的閱讀PDF的屬性窗格中,提及輸出變量以查看輸出。設(shè)置輸出變量按CTRL + K,然后輸入名稱。這里我提到了輸出。
步驟4:之后,在序列中拖放一個(gè)消息框,然后在其中提及輸出變量。
您的完整序列和輸出應(yīng)分別如下面的圖片所示。
圖2:使用OCR活動(dòng)和輸出讀取PDF的快照 - UiPath PDF數(shù)據(jù)提取
在這里,您可以清楚地看到示例文檔圖像中存在的文本已被提取。這就是如何使用帶有OCR活動(dòng)的閱讀PDF的操作方式。
在我結(jié)束這一部分之前,我再提一些重要的點(diǎn)。閱讀帶有OCR活動(dòng)的PDF
關(guān)鍵點(diǎn)
- 在“ 讀取文本活動(dòng)的屬性窗格 ” 和“ 使用OCR 活動(dòng)讀取PDF”中,我們有一個(gè)名為Range的參數(shù)。此參數(shù)用于提及必須從中提取數(shù)據(jù)的頁碼范圍(1,全部,2-10 10-All)。
- 上述兩種活動(dòng)都是獨(dú)立的,即它們不需要打開其他應(yīng)用程序。因此,即使您的PDF文檔未在屏幕上打開,這些活動(dòng)也可以執(zhí)行您的任務(wù)。
現(xiàn)在,除了上述活動(dòng)之外,還有另一種提取數(shù)據(jù)的方法,即使用“ 設(shè)計(jì)”選項(xiàng)卡中的屏幕抓取向?qū)?/font>。
屏幕抓取向?qū)?/h2>
屏幕抓取向?qū)荱iPath提供的一項(xiàng)功能,用于從多個(gè)平臺(tái)中抓取數(shù)據(jù)。
要使用此向?qū)В梢酝ㄟ^保持PDF文檔打開來執(zhí)行以下步驟。
步驟1:單擊屏幕抓取擦圖標(biāo),然后選擇要提取的PDF文檔中的部分。
第2步:然后,您將被重定向到屏幕抓取向?qū)В梢允褂锰崛〉奈谋驹谙旅婵吹健?/font>現(xiàn)在,在這里你可以選擇抓取方法(原生/全文/ OCR)。選擇所需的方法,然后單擊“ 完成”。
圖3:屏幕抓取向?qū)Э煺?- UiPath PDF數(shù)據(jù)提取
第3步:單擊完成后,Scraping Wizard將返回到您的序列。在這里添加一個(gè)消息框以查看輸出并提及輸出變量,該變量在返回序列中的“獲取全文/獲取OCR文本”活動(dòng)中提到。這里的變量名是'AvlAvview',我在消息框中提到過。
您的完整序列和輸出應(yīng)如下圖所示。
圖4:屏幕抓取和輸出的快照 - UiPath PDF數(shù)據(jù)提取
在這里,您可以清楚地看到示例文檔圖像中存在的文本被提取出來,以及文件中的文字。因此,您可以使用Screen Scraper Wizard來提取文本和圖像。
現(xiàn)在,繼續(xù)我們的下一部分,即提取特定元素
提取特定元素
通過提取特定元素,您可以在某些情況下提取特定元素,例如發(fā)票中的總計(jì)或簡歷中的聯(lián)系人號(hào)碼等。
UiPath主要提供兩種選項(xiàng)來提取大型文本。這些方法是:
- 獲取文字活動(dòng)
- 錨定基礎(chǔ)活動(dòng)
獲取文字活動(dòng)
此活動(dòng)只是指向您要提取的元素。使用此活動(dòng),可以提取文本,并可以使用輸出變量。之后,您可以使用消息框或?qū)懳谋疚募顒?dòng)并提及輸出變量。
請(qǐng)參閱下面的圖片以檢查順序和輸出。在這里,我提取了總金額,然后在消息框中顯示輸出。
圖5:獲取文本活動(dòng)和輸出的圖片 - UiPath PDF數(shù)據(jù)提取
這就是如何使用Get Text Action。現(xiàn)在,轉(zhuǎn)到我們的下一個(gè)活動(dòng),即Anchor-Base Activity。
錨定活動(dòng)
Anchor Base Activity用于提取文本和圖像。此活動(dòng)由兩個(gè)操作組成,因?yàn)樗鼒?zhí)行與另一個(gè)固定元素或錨點(diǎn)相關(guān)的操作。
因此,典型的錨定活動(dòng)主要有兩個(gè):
- 查找元素/查找圖像活動(dòng)
- 獲取文字活動(dòng)
查找元素/查找圖像活動(dòng)
查找元素/查找圖像活動(dòng)用于分別查找元素,即文本和圖像。您可以根據(jù)需要使用這些活動(dòng)。現(xiàn)在,由于Anchor Base活動(dòng)是一個(gè)相對(duì)活動(dòng),您可以像我之前提到的那樣使用Get Text Activity。
請(qǐng)參閱下面的圖片。在這里,我使用了Anchor-Base 活動(dòng),以及Find Image Activity和Get Text Activity。在“ 查找圖像活動(dòng)”中,我選擇了“總計(jì)”,因此基本上會(huì)搜索“總計(jì)”,然后在“獲取文本活動(dòng)”中,由于選擇了該值,因此將提取該值。
圖6:錨點(diǎn)基礎(chǔ)活動(dòng)的圖片 - UiPath PDF數(shù)據(jù)提取
以上便是關(guān)于UiPath PDF數(shù)據(jù)提取的內(nèi)容。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > UiPath PDF數(shù)據(jù)提取 - 從PDF文檔中提取文本
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國