PDFオブジェクトの解析ツールのお薦めは?

プログラマ目線でPDF規格を学びましょう―― PDFファイルの内部構造を見る・調べるツール、RUPSとPDFXplorerを紹介します。
BuildVu開発者ブログから

著者 Mark Stephens (IDRsolutions)  翻訳 BuildVu日本チーム

PDFと連携するソフトウェアを開発するとき、しばしばPDFファイルの中味を見たり、内部構造を確認したくなります。PDF規格はテキストとバイナリが混在するので、テキストエディタで開けないこともあります。そもそもPDF規格は複雑です。そこで、PDFの内部構造を“理解”したうえで、各オブジェクトの内容を表示できるツールを使う必要があります。

RUPS

RUPSはiText社が提供するツールで、PDFファイルを開いたり、PDFオブジェクトのデータを見ることができます。GUIで操作できるのでわかりやすく、PDFオブジェクトの奥深くまで調べる機能があります。PDF関連ソフトウェアの開発や、手持ちのPDFの内部構造/データを確認する際の手間と時間を大きく節約できるツールです。

RUPS iText社 (オーブンソース、試用後は有償)
こちらからダウンロードできます。
https://itextpdf.com/products/rups

たとえば、下記のPDFファイルをRUPSで見てみましょう。

RUPSではタブ形式でオブジェクトが整理され、いろいろなやり方でオブジェクトを表示できます(下図)。例えばPDFのメイン画像のXobjectを見たければ、左タブのXobjectをクリックします。すると下部の右ペインに画像が、左ペインにオブジェクトに関する情報が表示されます。

このPDFファイルは、中味をテキストエディタで見ることができるものでした(下図)。しかしこれでは、ファイル構造やオブジェクトの詳細をひと目で理解することはできません。やはりRUPSのようなツールを使うべきでしょう。

PDFXplorer

PDFXplorerは、O2 Solutions社の提供するフリーのPDF解析ツールです。Windows専用のコンパクトなフリーウェアで、PDFの内部構造をツリー形式で表示します。

PDFXplorer  O2 Solutions社 (フリーウェア、無料)
こちらからダウンロードできます。
https://www.o2sol.com/pdfxplorer/overview.htm

あるPDFファイルをテキストエディタとPDFXplorerで開いてみました。

こちらがテキストエディタで開いたPDFファイルです

こちらがPDFXplorerで開いたPDFファイルです

PDFXplorerでは、PDFオブジェクトのそれぞれの属性を表に似た形式で表示します。タブから操作を選択しながら、PDFファイルのあちこちに移動してデータを見たりコピーしたりできます。

例えばPDFファイルに組み込まれているJavaScriptが扱うオブジェクトはどれかを調べたり、PDFファイル内の画像データをコピーしたいとき、PDFXplorerを使えばお手軽に作業できます。

取り扱い製品について

PDF規格は複雑なうえに、過去からの積み重ねで非常にわかりにくくなっています。PDF連携ソフトウェアの開発では、英国IDRsolutions 社のPDF関連製品(変換ツール、ライブラリ、ソフトウェア部品など)を、ぜひご検討ください。
IDRsolutions はPDF関連ツールを20年以上に渡って開発・提供し続けています。PDF分野の老舗企業として、世界中の企業や公的機関にご活用いただいています。
日本では株式会社インターワークがIDRsolutions社の日本総代理店として取り扱っていますので、お気軽にご相談ください。

VIEWING PRODUCTS
BuildVu

PDFをHTML5やSVGに変換

PDFのフォームをHTML5に変換

SDK PRODUCTS
JPEDAL

PDFファイルの表示、変換、抽出

多くの画像ファイル形式を読み書き、変換、操作、処理

このPDF文書は構造化テキストのコンテンツを含んでいますか?

それはファイルによって異なります。PDFには、ページ構造に関する情報を含む構造化PDFファイル(タグ付きPDF)と、構造情報を含まず、内容がどのような順序であっても構わない非構造化PDFファイルがあります。これはPDFが作成される際に行われ、 構造化されていない PDFファイルを構造化されたPDFファイルに変換することはできません。PDF ファイルに構造化コンテンツが含まれているかどうかは、Adobe Reader でファイルを開き、[ドキュメント プロパティ

JavaアプリケーションのためのJava PDFビューア

マルチページ表示、検索、印刷、注釈、フォームなどの高度な機能を備えたJava PDF Viewer。表示は完全にカスタマイズ可能で、APIを介してソフトウェアを制御することができます。

JPedalバイヤーズガイド

JPedalバイヤーズガイドJPedalとは何か、誰が使うべきか、なぜ使うのか、JPedalについてもっと知ることができますドキュメント無料トライアルJPedalを購入すべきかどうか?これは、その判断のためのガイド

価格およびライセンス

あなたの用途に合った料金モデルを見つけてください。ご不明な点がございましたら、弊社担当者までお問い合わせください。

Facebook
Twitter
Email
公式ブログロゴ

製品に関する記事や開発者のブログ

開発チームに最適なJava画像ライブラリとは?

画像処理は現代のJavaアプリケーションにおいて避けて通れない機能の一つです。Webサービスでのサムネイル生成、ドキュメント管理システムでのファイル変換、データ分析での可視化出力など、様々な場面で画像ライブラリの品質がシステム全体の安定性を左右します。

多くの開発チームが最初に手を伸ばすのは、Java標準のImageIOやオープンソースのライブラリでしょう。確かに導入は簡単で、基本的な画像処理には十分に見えます。しかし、プロダクション環境で実際に運用を始めると、思わぬ落とし穴に遭遇することがあります。

開発チームに最適なJava PDFライブラリとは?

「オープンソースで十分じゃない?」
そう考えるエンジニアは少なくありません。確かに無償のライブラリは機能が豊富で、改変も自由です。しかしバグ修正やセキュリティパッチを自分たちで追い続ける労力、サードパーティのパッケージを呼び出すリスク、そしてライセンス条件の判断に迷う時間などを考えると、コードを書かない”隠れコスト”が静かに膨らんでいきます。

「保守や脆弱性対応に追われて本来の開発が進まない!」

そんな声が聞こえてきたら、商用ライブラリへの切り替えどきかもしれません。

開発チームに最適なPDF-HTML変換ツールとは?

開発チームに最適なPDF-HTML変換ツールとは?PDFからHTMLへの変換において開発者が直面する課題と、それを解決するBuildVuの特長を解説。正確な変換品質、スケーラビリティ、セキュリティ、開発者フレンドリーな出力、そしてシンプルな料金体系で、チーム開発の効率を高める方法をご紹介します。

PDFファイルを扱うシステム開発・ウェブ開発に役立つ

開発者向けPDF入門ガイド

開発者向けPDF入門ガイド

PDFの基礎から応用まで開発者のための入門ガイド2024年版

PDF の仕様や活用方法など、開発者に必要な情報がコンパクトにまとめました。初めてPDFを扱う開発者にも分かりやすく、基礎から応用までカバーしているため、PDF のポテンシャルを最大限に引き出し、アプリケーション開発やドキュメント管理の効率化を図るための手引きとなるでしょう。技術的な側面に興味がある開発者だけでなく、ビジネスでPDFを有効活用したい方にもおすすめの一冊です。

MENU
PAGE TOP