MENU

for Ideal Design

RPA

RPAツール:WinActor PDFからテキストデータを取得する

RPA WinActor 業務改善 生産性向上 ビジネスデザイン データでビジネスをもっと面白く エンジニア

今回はPDFからのデータ取得の可否について、またその取得方法について紹介します。
PDF上の文字には、カーソルで選択できるもの画像となっているものがあります。

 

1.PDFの文字が画像のもの

残念ながら画像となっているものは、WinActorではテキストデータとして抽出できません

💡WinActorVer.6.3.0でWinActorEyeが登場し、Microsoft OCRが利用できますが、文字の抽出精度、文字の位置に関する矩形情報の精度などはMicrosoft OCRに依存するため、WinActorEyeとして動作保証はされていません。WinActorEye内でサンプルとして提供されています

MicrosoftOCR読み取り結果

お手元にOCRソフトがあれば、そちらでテキストデータを抽出してからWinActorをご利用いただくことになります。

 

2.PDFの文字がカーソルで選択できるもの

一方、カーソルで選択できるものについては下記の方法等で対応が可能です。PDFからテキスト情報を取得後、必要部分のみを抽出して利用します。
正しくデータが取得できないなど動作が安定しない可能性がありますので、十分な検証のもとご利用ください。

 

PDFからテキストデータ取得を取得する

Step1 テキストデータを取得する

【方法1】ショートカットキー(Ctrl+C)でコピーしてクリップボードに取り込む

A.「エミュレーション」を利用する方法

≪手段①≫A座標からB座標まで(固定位置)ドラッグ、Ctrl+C(コピー)する
≪手段②≫Ctrl+A(全選択)⇒Ctrl+C(コピー)する

B.「画像マッチング」と「エミュレーション」を組み合わせて利用する方法

事前にマッチング用の画像を取得しておきます。
≪手段①≫画像の照合後、マウストリプルクリック⇒Ctrl+C(コピー)する
≪手段②≫画像の照合後、マウスドラッグ⇒Ctrl+C(コピー)する

【方法2】外部ツールを利用してテキストファイルに出力する(公式サンプルシナリオ利用)

Apache PDFBox(Javaライブラリ)を利用してテキストデータを取得する方法です。
「コマンド実行」でPDFBoxを実行し、テキストファイルを出力します。

※予めPCへJavaをインストールしていただく必要があります。
(Ver.5または6ご利用の方は、WinActor同梱のjava.exeをご利用いただくことも可能です。)

PDF取込結果_PDFBox

💡コマンドプロンプト上で下記のようにコマンドを書き、PDFBoxを実行するとテキストファイルが出力されます。これをWinActorで実行します。

java -jar
 [PDFBoxパス] ExtractText [PDFファイルパス] [出力テキストファイルパス]

WinActorの公式サイトにサンプルシナリオがありますので、ご利用ください。

💡サンプルシナリオの取得方法
「WinActorを使う」➡「サンプルシナリオ」➡「PDFから外部ツールで文字列情報を取得し、WinActorノートへ貼り付けを実行するサンプルシナリオ」を選択しダウンロードします。

サンプルシナリオへ

 

Step2 取得したテキストデータから必要な部分のみを抽出する

【方法1】「WinActorノート」を利用し、必要部分を取得する(WinActorVer.6をご利用の方)

💡「ライブラリ」➡「25_WinActorノート」内のノードを利用します。
WinActorノートの使用法方法は、WinActorに付属の
・01_WinActorノート_操作マニュアル.pdf
・02_WinActorノート_テキスト処理シナリオ作成マニュアル.pdf
をご覧ください。

PDF取込結果

【方法2】取得したデータをExcelファイルに貼り付け、必要部分を取得する

主に「ライブラリ」➡「18_Excel関連」内のノードを利用します。

PDF取込結果_Excel

【方法3】テキストファイルを操作して、必要部分を取得する

主に
・「ライブラリ」➡「13_ファイル関連」➡「01_テキストファイル操作」
・「ライブラリ」➡「07_文字列操作」
を利用します。

【方法4】クリップボードのデータを変数に取り込み、必要部分を取得する

「ノード」➡「アクション」➡「クリップボード」を利用します。

今回はPDFファイルからテキストデータを抽出する操作方法について紹介しました。ぜひ使ってみてくださいね。
また次回をお楽しみに!

 

▼こちらもおすすめ