変換に最適なPDFファイルは?
BuildVuは、あらゆる有効なPDFファイルを扱うように設計されており、特定の種類のPDFファイルに偏ることはありません。とはいえ、PDFファイルの品質はさまざまであり、BuildVuは与えられたデータでしか動作しません。一般的には、ゴミを入れるとゴミが出るということです。
PDFの作成をコントロールしている場合、コンテンツの将来性を確保し、BuildVuを最大限に活用するためにできることがいくつかあります:
- PDFを圧縮するツールや設定を避ける
- フォントが埋め込まれていること
- マーク付き、タグ付き、構造化されたコンテンツを有効にする
- PDF/Aとしてファイルを作成する
PDFを圧縮するツールや設定を避ける
PDFファイルを圧縮するツールは、どれだけファイルサイズを小さくできるかで判断されますが、多くの場合、問題の原因となる重要な情報を削除することで圧縮を実現しています。圧縮されたPDFは、「見た目」は良くても、ボンネットの中身は別の話になっていることがよくあります。
圧縮されたPDFファイルに起因する問題の例として、私たちが目にしたものは以下ようなケースです:
- 文字のマッピングが削除されたことによるテキスト抽出の失敗
- 画像のタイル化により、画像に小数の白線が現れる
- フォントの幅データが削除されたため、テキスト出力が分断される
- 画像が過度に圧縮されたことによる画質の劣化
圧縮されたPDFファイルがBuildVuで生成されるファイルサイズに影響を与えることはほとんどありませんので、一般的にはそれらのツール/設定を可能な限り避けることをお勧めします。
フォントが埋め込まれていること
PDFファイルは、PDFファイル内にフォントを埋め込むのではなく、ローカルファイルシステムに保存されているフォントに依存して作成されることがあります。
このような場合、BuildVuは、埋め込まれていないフォントをオープンソースのフォールバックで置き換えます。外観を正確に保つために、可能な限りすべてのフォントを埋め込むことをお勧めします。
マーク付き、タグ付き、構造化されたコンテンツを有効にする
標準的なPDFファイルには、いかなる種類の構造情報(段落、見出しなど)も含まれていません。マーク付きコンテンツは、PDFファイルのコンテンツに追加の構造情報をタグ付けするためのオプション機能です。私たちが目にするほとんどのPDFファイルにはこの機能が含まれていませんが、PDFの作成を管理している場合は、この機能を有効にすることを強くお勧めします。
BuildVuでは現在マークドコンテンツを使用していませんが、将来的にはマークドコンテンツが利用可能になった際に、それをより有効に活用できるかどうかを調査する予定です。
PDF/Aとしてファイルを作成する
PDFは非常に強力なファイルフォーマットですが、強力なパワーには大きな責任が伴います。すべてのPDF作成ツールが同じというわけではなく、中には他のツールよりも優れた仕事をするものもあります。HTML パーサーと同様に、PDF パーサーも仕様に完全に準拠していないドキュメントを処理することが求められます。私たちは、PDF 仕様の解釈に疑問がある文書を処理するために、パーサーに調整を加えることがよくあります。
PDF/Aの登場: PDF/Aは、より現代的で厳格なバージョンの仕様であり、文書がコンテンツ抽出や文書のアクセシビリティに関連する情報を確実に保持するための規定を含んでいます。これは、主に印刷フォーマットとしてのオリジナルPDF仕様の意図を超えたものです。
使用しているツールにPDF/Aを有効にするオプションがある場合は、有効にすることを強くお勧めします。