こんにちは!こんばんは!
Automation Anywhereネタ2本目です!笑
昨今、DXという言葉が飛び交い、私たちはDXに取り組んでいるから最先端をいっている企業だ!とか、この業務を効率化しようぜ!などなど叫んでいる企業や人も多いのかと思います。
それってDXに向けた話であって、DXではないですよね。あくまでデジタイゼーションですよね。
良ければ結局のところDXってなんだろうを読んでみてください。
さて、本題に入ります!
デジタル化が進んできて、紙だったものがデータ化されたりしていますよね。特に紙⇒PDFになったりしたことで、ハンコを押す必要がなくなったりしましたよね。その影響もあって、PDFのデータを読み取りたい!ってときはありますよね?
ちなみにExcel VBAとWordを駆使することで読み取ることは出来るのですが、記述するのちょっとめんどくさいって思っちゃう人も中にはいると思います。
Automation Anywhereのアクションの中に、PDFを読み取るアクションが存在するんです!初めてこれを触った時、あぁあんなに時間をかけてVBAでやったのに・・・と思ってしまいました。笑
では実際にPDFを読み込むアクションと具体的な例を用いて事例を紹介します
PDF:テキストを抽出
このアクションご存知でしょうか?PDFパッケージ内にある「テキストを抽出」です。
※ちなみに現在私が使用している環境はビルド14304です。
いつのverから追加されたかは分からないので公式を見てほしいのですが、2022年のリリースタイミングでは確実にリリースされていたはずです。
このアクションのプロパティは以下のような感じです!
プロパティの詳細に関しては、公式のアクション紹介ページを参照ください。
今回私が紹介するのは、おそらくどの方も使うであろうプロパティ設定をしたものになります。
さて、今回私が設定をしているのは、以下の箇所です。
- PDFパス
- テキストタイプ
- ページ範囲
- テキストファイルにデータをエクスポート
PDFパス
こちらは、PDFのファイルパスを設定するところになります。
ちなみに今回はサンプルのPDFとして以下のPDFファイルを用意しました!
テキストタイプ
こちらは、PDFによって使い分ける必要がある設定になります。
実際には対象のPDFに対して試行して、返ってきてほしい内容か確認して選択してください。
システムから出力されたようなPDFファイルは画像で設定している、「構造化テキスト」がオススメです。
「テキスト」は公式にも書いてある通り、PDF内のテキストをコピーしてテキストファイルに貼り付けたようなイメージです。
ページ範囲
こちらは、対象のページだけに絞るのか、全ページにするのかという設定です。
テキストファイルにデータをエクスポート
こちらは、テキストのファイルパスを設定するところになります。
必ずフルパスで設定してくださいね。
PDFからテキスト抽出実行
それでは、上記設定をしたうえで実行をしてみましょう。
無事に実行が完了しました。
それでは、本当にテキスト化に成功したのでしょうか?テキスト化されたファイルは以下です。
無事にテキスト化に成功しました。
まとめ
このように1つのアクションで簡単にPDFをテキスト化することが出来ました。
本来の業務ではテキスト化するだけでは、使えないかもしれません。私のところでは、テキストファイルを、VBSを使って必要な部分だけ抽出して変数に格納して、AAで使用しています。
ただ、テキスト化することで操作がかなり容易になりますので、今後PDFファイルでの業務が今より一般的になってきたらさらに重宝されるアクションになるかと思います。
コメント