UiPath PDF數(shù)據(jù)提取 - 從PDF文檔中提取文本

suntingting 發(fā)布于 2019-06-13 10:09:47
分類：UiPath學(xué)習(xí)
來源：原創(chuàng)
閱讀()
評(píng)論()

UiPath PDF數(shù)據(jù)提取

PDF一直是存儲(chǔ)數(shù)據(jù)最可靠的格式之一。從大型公司到小型企業(yè)，每個(gè)人都以這種格式存儲(chǔ)各種數(shù)據(jù)。但是，想象一下，如果必須從這些PDF文檔中提取原始數(shù)據(jù)。可以手動(dòng)完成嗎？好吧，簡單的答案是否定的，因?yàn)檫@是一項(xiàng)相當(dāng)繁瑣的工作，但是，如果您熟悉自動(dòng)化中的某些服務(wù)，那么您可以輕松地自動(dòng)執(zhí)行此過程。

這篇關(guān)于UiPath PDF數(shù)據(jù)提取的文章將向您簡要介紹UiPath提供的從PDF中提取數(shù)據(jù)的所有方式，無論是原生文本格式還是掃描圖像。
為了便于您理解，我將本文分為以下兩個(gè)部分：

提取大文本
提取特定元素

在真正開始提取數(shù)據(jù)之前，需要確保的一件重要事情是從系統(tǒng)上安裝的Manage Packages部分獲得UiPath.PDF.Activities。選擇軟件包后，單擊“保存”，軟件包將開始安裝。請(qǐng)參閱下圖。

Manage Packages - UiPath PDF Data Extraction - Edureka

圖1：管理包的快照 - UiPath PDF數(shù)據(jù)提取

在我們繼續(xù)之前，如果您想學(xué)習(xí)使用UiPath從PDF中提取數(shù)據(jù)，可以參考以下視頻。該視頻將幫助您獲得數(shù)據(jù)提取的實(shí)踐經(jīng)驗(yàn)。

UiPath PDF數(shù)據(jù)提取

Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.

現(xiàn)在，您知道必須安裝哪個(gè)軟件包后，下面介紹如何在PDF文檔中提取大型文本。

提取大文本

可能存在這樣的情況：我們有一個(gè)完全充滿文本的文檔，或者文本和圖像的混合。那么，提取大型文本屬于這種文檔，其中文檔僅包含文本或文本和圖像的混合。

UiPath主要提供兩種選項(xiàng)來提取大型文本。分別是：

閱讀PDF文本
閱讀帶有OCR的PDF

除此之外，我們還有屏幕抓取方式。讓我們從閱讀PDF文本開始。

閱讀PDF文本

Read PDF用于從僅包含Text 的PDF文件中提取數(shù)據(jù)。因此，如果PDF中存在圖像，則此活動(dòng)將不是要選擇的正確活動(dòng)，因?yàn)樗粫?huì)提取圖像中存在的數(shù)據(jù)。

在此之前，您可以參考下面的圖片，其中展示了我將用于此文章的示例PDF文件。在PDF文檔中，上半部分是文本，引用的部分是圖像。

Sample PDF - UiPath PDF Data Extraction - Edureka

現(xiàn)在，我將創(chuàng)建一個(gè)序列，在其中我將提到必須從中提取數(shù)據(jù)的PDF目錄，并且我將在消息框中編寫輸出。

注意： 您可以將輸出寫入任何格式的文件，如寫文本文件，寫入行，寫入單元格活動(dòng)等。

第1步：創(chuàng)建一個(gè)序列并重命名。在這里，我將其重命名為Extract Text。

第2步：拖放“ 閱讀PDF文本活動(dòng)”。在活動(dòng)中，請(qǐng)?zhí)峒氨仨殢闹刑崛?shù)據(jù)的PDF文檔的路徑。

第3步：現(xiàn)在，在屬性面板中閱讀PDF文本活動(dòng)，提一個(gè)輸出變量查看輸出。要設(shè)置輸出變量，請(qǐng)按CTRL + K，然后輸入名稱。這里我提到了輸出。

步驟4：之后，在序列中拖放一個(gè)消息框，然后在其中提及輸出變量。

完整序列和輸出應(yīng)分別如下面的圖片所示。

Read PDF Text Activity - UiPath PDF Data Extraction - Edureka Fig 2: Snapshot of Read PDF Text Activity with
圖2：使用輸出讀取PDF文本活動(dòng)的圖片 - UiPath PDF數(shù)據(jù)提取

在這里，您可以清楚地看到我們圖像中存在的文本未被提取，并且僅提取了樣本PDF文檔中存在的文本。那么，你們就可以使用“閱讀PD??F文本活動(dòng)”。

現(xiàn)在，轉(zhuǎn)到下一個(gè)活動(dòng)，即使用OCR活動(dòng)讀取PDF。

閱讀帶有OCR活動(dòng)的PDF

帶有OCR活動(dòng)的閱讀PDF用于從包含文本和圖像的PDF文檔中提取數(shù)據(jù)。因此，如果除文檔中的文本外還有其他圖像，此活動(dòng)將從這些圖像中提取數(shù)據(jù)并提供文本輸出。

OCR Engine - UiPath PDF Data Extraction - Edureka

正如活動(dòng)的名稱所示，此活動(dòng)使用光學(xué)字符識(shí)別來掃描PDF文檔內(nèi)的圖像，并將所有文本輸出為變量。所以它需要一個(gè)OCR引擎。在“ 活動(dòng)窗格”中，如果搜索OCR引擎，您將獲得已安裝引擎的列表。請(qǐng)參閱上圖。

現(xiàn)在，我將創(chuàng)建一個(gè)序列，在其中我將提到PDF的目錄，從中提取數(shù)據(jù)，我將在消息框中寫入輸出。唯一的區(qū)別是，您將看到圖像中的文本也被提取出來。

按照以下步驟，創(chuàng)建自動(dòng)化以提取圖像中存在的文本。

第1步：創(chuàng)建一個(gè)序列并重命名。在這里，我已將其重命名為使用OCR提取文本。

步驟2.1：拖放帶有OCR活動(dòng)的閱讀PDF。在活動(dòng)中，請(qǐng)?zhí)峒氨仨殢闹刑崛?shù)據(jù)的PDF文檔的路徑。

步驟2.2：現(xiàn)在，搜索OCR引擎，并根據(jù)安裝的任何一個(gè)拖放OCR引擎。在這里，我使用了Google OCR Engine。

步驟3：現(xiàn)在，在具有OCR活動(dòng)的閱讀PDF的屬性窗格中，提及輸出變量以查看輸出。設(shè)置輸出變量按CTRL + K，然后輸入名稱。這里我提到了輸出。

步驟4：之后，在序列中拖放一個(gè)消息框，然后在其中提及輸出變量。

您的完整序列和輸出應(yīng)分別如下面的圖片所示。

Read PDF with OCR Activity - UiPath PDF Data Extraction - Edureka
圖2：使用OCR活動(dòng)和輸出讀取PDF的快照 - UiPath PDF數(shù)據(jù)提取

在這里，您可以清楚地看到示例文檔圖像中存在的文本已被提取。這就是如何使用帶有OCR活動(dòng)的閱讀PDF的操作方式。

在我結(jié)束這一部分之前，我再提一些重要的點(diǎn)。閱讀帶有OCR活動(dòng)的PDF

關(guān)鍵點(diǎn)

在“ 讀取文本活動(dòng)的屬性窗格 ” 和“ 使用OCR 活動(dòng)讀取PDF”中，我們有一個(gè)名為Range的參數(shù)。此參數(shù)用于提及必須從中提取數(shù)據(jù)的頁碼范圍（1，全部，2-10 10-All）。
上述兩種活動(dòng)都是獨(dú)立的，即它們不需要打開其他應(yīng)用程序。因此，即使您的PDF文檔未在屏幕上打開，這些活動(dòng)也可以執(zhí)行您的任務(wù)。