第9回 PDFのデータ活用 ― Word、Excelへ変換 ―
PDFを自在に編集したい
意外と知られていないのですが、PDF編集ソフトがあれば、比較的簡単にPDFの編集が可能です。多くのソフトウェアがPDFの直接編集に対応していますので、数か所程度の誤字脱字や、写真を数枚差し替える程度であれば、難なく作業できるでしょう。資料のPDFをどうしても修正したくなる時がたまにあるという方も多いと思います。修正箇所が多いとか、改行など体裁が変わってしまうような修正は、WordやExcel上 で編集できればいいなと考える方も多いでしょう。
そこで今回は、PDFファイルのWordやExcel形式への変換についてご紹介します。同時にその変換技術の難しさについても簡単に解説します。
WordでPDFを開けば編集できる
普段WordからPDFを作成するときは、「PDF-XChange Editor」であれば専用のメニューから、あるいは印刷メニューからPDFを出力したり、「名前を付けて保存」でPDF形式で保存します。このようにして作成したPDFは、実はWord(Office 2013以降)で開いて再編集することができます。Wordの元ファイルとまったく同じとはいえませんが、Wordファイルと同じ感覚で再編集が可能です。
PDFをWordで開けるのかと思われるかもしれませんが、一度試してみてください。開けない、あるいは開いても編集が事実上できない場合もあります。その理由などはまた別の機会にご紹介します。
印刷経由で作成したPDFの内部データ
前述のような方法でPDFを作成するときは、Word内で作られた印刷用のデータが使われます。
印刷用のデータはプリンターに送るために作られたデータなので、文字や図の位置、図形や画像を再現するためのデータだけが必要です。印刷経由でPDFを作成すると、PDFの内部はまさに印刷をするために用意されたデータがそのまま並んでいる状態です。
PDF上で見た目は改行されている場合でも、そこに改行コードがあるとは限りません。見た目には単語との間にスペースがあるようでも、実際にはスペースの文字コードが含まれない場合もよくあります。Wordでは文字はカラムやテキストボックス内に自動で配置されますが、PDF内にはカラムやテキストボックスは存在しませんので、文字をどこに再配置すればよいのかという情報が実はPDFには全くありません。
こうしたPDFの文字などを再編集する場合、実は大変面倒な情報処理をすることになります。文字などの配置を解析して、再編集を前提としたデータ構造を作り出す必要があります。テキストボックスのようなものを作り、文字が追加されてテキストボックスからあふれた場合は文字を次行に送るなどの処理を実現させます。
正直なところ、この辺りがソフトウェアベンダーの力量差が出るところかもしれません。
PDFのExcel変換は難しい
Excelから作成したPDFに限定した話ですが、そのPDFをExcel形式にするには、大きく4つの方法が考えられます。
- ・PDFファイルをExcel形式に変換するソフトウェアを利用する。
- ・PDFを解析して表形式のデータとして抽出できるソフトウェア(PDF-XChange Editorなど)を利用する。
- ・Adobe ReaderなどPDFビュワーで表部分をテキストとしてコピーしてExcel上で貼り付ける。
- ・PDFをWordで開いて表部分をExcelに貼り付ける。
いずれの方法も、PDF内にはセルの結合や計算式など元原稿であるExcelが持っていた複雑な構造は残っていません。PDF内のデータはExcelデータの印刷時のレイアウトの再現を機械的に行うだけなので、Excelデータを作成した人が意図したようなExcelの再現には程遠い結果になります。
スキャンしたPDFとOCR
印刷物をスキャンしたり、画像のみで作成されたPDFをWordやExcelに変換する場合、まず最初にOCRの技術を使って画像内のイメージを文字や画像、線といったものに分別し、それらをWordやExcelのデータに作り替える処理が必要になります。
例えば、Wordなら英字の小文字のエルのなのか数字の1なのかを画像から判断したり、Excelの場合はさらに縦横の罫線を文字や数字と見分ける能力が求められます。
OCRは最近AI技術の導入で認識率が大きく向上しているようです。人間では確実に判断できるようなイメージであれば、AIもいずれは人間以上の正確さで判断できるようになると思われます。
文字や図形の認識率は確実に向上していくでしょうが、Word文書やExcelの表データを再現する技術はまた異なる技術要素なので、そうそう簡単にはレベルアップできないと考えられます。
使い勝手のよいWordやExcelファイルに変換できるかがポイント
PDFをWordやExcelに変換する技術は、OCRの性能も重要ですが、それにプラスして、WordやExcelのことをよく理解した上でユーザーに使い勝手のよいファイルとして再現できるかどうかもポイントになります。
例えば、Wordのレイアウトの再現性を優先したいがため、テキストボックスだけでWordファイルを再現してしまう製品の場合、文書を大きく再編集する場合はちょっと困ってしまいます。
Excelのレイアウトの再現性を優先したいがため、細い列や行を大量に作り、文字を細切れに配置してしまうと、再編集は困難でしょう。
こうした変換の特長を知ることも製品を選択する際の重要なポイントになります。