PDFのOCR処理を徹底解説!無料ソフトと有料サービスの使い分けのポイントとは?
社会のペーパーレス化が進む昨今ですが、一方でPDF等の文書データのやりとりは増加しており、PDFの内容をテキストデータ化できる「OCR」のニーズが高まっています。
例えば、リモートワークが普及したことなどをきっかけに電子書類のやりとりも近年増えていますが、捺印が必要な場合、捺印済の紙書類をスキャンして電子メール等で送るケースがまだまだ多く、そうしたデータはあくまで画像データであり、文書の内容をデジタルデータ化するためにはOCRが必要です。
本記事では、OCRの基本を解説するとともに、OCRを上手に活用していただくために、各社が提供している無料/有料のOCRサービスを利用する際のポイントをご紹介します。
そもそもOCRとは?基本をおさらい!
OCRとは「Optical Character Recognition」の略で、日本語では「光学文字認識」と訳されます。
手書きの文字や印刷された活字をスキャナーやカメラなどで読み取って画像化し、その中から文字要素を認識して、テキストのデジタルデータへと変換する技術のことを指します。
OCR技術を用いて文字を読み取りデジタル化することを「OCRする」と表現する場合もあります。
ビジネスや生活の中で様々なもののデジタル化が進む昨今、書類や伝票、書籍など紙に物理的に記入/印刷されたアナログ情報をデータ化するニーズが増えていることから、OCRの需要が急速に高まっています。企業間でRPA(※)が普及し、文書のデータ化の需要が高まったこともOCRニーズの拡大を後押ししています。
(※RPAとは:Robotic Process Automationの略で、パソコン上で行う業務をロボットで自動化するテクノロジーのこと。パソコンやクラウド上で動くソフトウェアとして各社から提供されている)
OCR活用には次のようなメリットがあります。
・データ入力業務にかかる時間とコストを削減
・埋もれている情報をデータ化することで検索・活用が可能に
・書類を保管するスペースを削減
・書類の編集や加工、活用が可能に
OCRについてもっと詳しく知りたい方はこちら
PDFからOCRでテキスト抽出するメリット
次に、OCRを使ってPDFからテキストデータを抽出するメリットについて解説します。
PDFを見ながらデータを手入力する必要がない
1つ目のメリットは、人手と時間を要するデータの入力業務を削減できる点です。
一般的なスキャン機能を使って文書をPDFデータ化した場合、全体が1枚の画像として保存されるため、テキスト情報だけを抜き出したりコピー&ペーストすることができません。
そのため、文書内のテキスト情報をデータとして保存・活用した場合は、PDFを見ながら人の手によってひとつひとつ入力を行う必要があり、大変な手間がかかります。
OCRを活用すれば、事前の設定、書類のスキャニング、読み取ったデータの確認や修正といった工程だけで済むため、従来データ入力に要していた時間や人的コストを大幅に削減することができます。
サーチャブルPDFを作成でき、検索性が大幅に向上
2つ目は、PDF内の文字を検索できる「サーチャブルPDF」を作成できるという点です。(※この機能は一部の有料サービスに限ります)
スキャン画像のPDF文書の場合、ファイルを開いて中身をしっかり見ないと、どこにどのような内容が書かれているのか、どのようなデータが含まれているのか判断がつきません。
しかしOCRを活用すると、PDF内の文字を認識してPDF内にテキストデータが追加されるため、ワードなどの文章作成ツールで作成したファイルと同様に文書内のキーワード検索が可能になります。
文書内の探したい箇所を瞬時に検索することができるようになるだけでなく、パソコンやGoogleドライブなどに保存した場合は文書内のテキストデータも検索対象となることから、情報の検索性が飛躍的に向上し、業務効率化やデータ活用推進に大きく貢献します。
無料で使えるでOCRツール
機能は限定的ですが、無料でPDFをOCR処理できるオンラインツールやソフトはたくさんあります。下記はその一部です。
・Google Drive
・PDF Candy(https://pdfcandy.com/jp/pdf-ocr.html)
・ONLINE OCR(https://www.onlineocr.net/ja/)
本記事では多くの方にとって馴染みのあるGoogl DriveのOCR機能について簡単にご紹介します。
使い方は非常に簡単で、データ化したいPDFや画像のファイルをGoogleドライブにアップロードし、Googleドキュメントで開くというものです。
漢字の認識率も比較的高く、日本語の縦書きの文書にもある程度対応しています。
Googleドライブ ヘルプによると、以下の点に注意すると、OCRの認識精度を高めることができるようです。
形式:JPEG、PNG、GIF、PDF(複数ページのドキュメント)の各ファイルを選択する。
ファイルサイズを2MB以下にする。
解像度:テキストの高さは10ピクセル以上にする。
向き:ドキュメントを正しい向きにする。画像の向きが間違っている場合は、回転させてからGoogleドライブにアップロードする。
言語:Googleドライブではドキュメントの言語は検出されない。
フォントと文字セット:最適な結果を得るには、ArialやTimes New Romanのような一般的なフォントを使用する。
画質:明るさが均一でコントラストがはっきりしたシャープな画像が最適。
(参照:Googleドライブ ヘルプ PDFや写真のファイルをテキストに変換する)
無料ソフトの利用が向かないケースとは?
以上ご紹介した無料ソフトは、コストをかけずに手軽にOCRを使えるという利点がありますが、機能や精度には限界があるため、次に挙げるような場合は無料ソフトでは対応しきれないことも理解しておきましょう。
1. 手書き文字も含めて精度高く読み取りたい
Google Driveにおける手書き文字の読み取り精度は一定の評価を得ていますが、他の無料ソフトについては、手書き文字の読み取りは厳しいのが現状です。
お客様や取引先企業が手書きで記入した申し込み書や注文書などのPDFをOCRしたい場合は、手書き文字にも対応している有料のOCRサービスを利用したほうが良いでしょう。
2. 読み取る場所を指定したい
無料ソフトでは、PDFファイルの全体をOCRすることになります。ヘッダーやフッター、その他の不必要な文字要素もすべてテキスト化されてしまうため、その中から本当に必要なテキストだけ抽出するには相応の手間がかかります。
任意の場所のみOCRでテキスト抽出したい場合は、読み取りの細かな設定ができる有料サービスがおすすめです。
3. 大量の文書をOCRしたい
企業や団体でOCRを活用するシーンの多くでは、日々発生する大量の文書をデータ化したいというニーズがあります。
無料ソフトでは1ファイルごとにOCRを実行するのが基本であるため、文書ひとつずつ操作することになります。当然時間もかかりますし、操作性も決して高いとは言えません。
他方、有料サービスは大量の処理に対応しているため、企業が日常業務の中で一定ボリューム活用するのであれば、有料サービスを利用したほうが業務効率向上の効果は高いと言えるでしょう。
3. OCRしてデータをすぐに活用したい
無料OCRソフトから出力されるデータ形式はGoogleドキュメントやWordファイル、プレーンテキストなどで、テキストデータの羅列になっていることがほとんどです。データとしてきちんと整理されているわけではないため、そこから”使える”データにするには多くの時間を要します。
有料サービスでは、CSVやExcelなど整えられた状態で出力できるため、そこからのデータ加工やシステム等への取り込みもスムーズに行うことができます。
数枚程度の文書内の文字情報を単にテキストデータ化したい場合は無料ソフトでも足りるかもしれませんが、データとしてすぐに活用したい場合は有料サービスを活用するべきと言えるでしょう。
オススメの有料OCRサービス「SmartRead」
企業や団体で本格的にOCRを活用するなら、やはり有料サービスの利用が適切と言えるでしょう。そこでオススメしたいのが、株式会社Cogent Labsが提供する「SmartRead(スマートリード)」です。
SmartReadは、手書き文字や、傾いてスキャンされたPDFでも高い精度で読み取ることができ、もちろんサーチャブルPDFの作成にも対応しています。初心者でも直感的に操作ができるUI/UXも好評で、すぐに使えるクラウド版だけでなく、より安全性の高い環境で使えるオンプレミス版も提供されています。
さらに、”次世代AI OCR”に分類されるSmartReadでは、様々な種類・レイアウトのPDFを自動で判別・分類し、高い精度でPDFの内容を読み取ることができるため、文書の仕分けからデータ入力業務にかかる時間やコストの大幅削減を実現します。
PDFのOCRでデータ活用を推進しましょう
冒頭でも述べたように、PDF文書のやりとりが増える今、OCRを効果的に活用することで、業務効率化やデータ活用、DXの推進を目指すことができます。この機会にぜひ活用してみてはいかがでしょうか?