株式会社インターワーク
PDFコンテンツの抽出

PDFコンテンツの抽出

テキスト、画像、メタデータ、構造化コンテンツをJavaで抽出

構造化コンテンツ抽出

JPedalは、PDFからテキスト、画像、メタデータ、構造化コンテンツを多様なフォーマットで抽出できます。タグ付きPDF(Tagged PDF)の構造情報を活用し、見出し・段落・テーブル・リストなどの文書構造をEPUB、HTML、JSON、Markdown、XML、YAML形式で正確に出力します。AIや自然言語処理、データ分析パイプラインへの入力データ生成に最適です。

抽出機能

構造化テキスト抽出

タグ付きPDFの構造を維持し、見出し・段落・テーブル等を構造化データとして抽出します。

マルチフォーマット出力

EPUB、HTML、JSON、Markdown、XML、YAML形式での出力に対応します。

画像抽出

PDF内の画像をクリッピング付きで抽出。JPEG/PNG形式で個別ファイルとして保存します。

メタデータ抽出

タイトル、著者、作成日、ページ数、ページ寸法等の文書プロパティを取得します。

テキスト検索

PDF内のテキストを座標付きで検索。テキストの物理的な位置情報も取得可能です。

ワードリスト抽出

PDFからXML形式でワードリストを抽出。インデックス作成や全文検索に活用できます。

コード例

各フォーマットへの抽出コードサンプル

構造化PDFからレスポンシブHTMLを生成

String password = null;
ErrorTracker tracker = null;
ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();
properties.setFileOutputMode(OutputModes.HTML);

ExtractStructuredText.writeAllStructuredTextOutlinesToDir(
    "inputFileOrFolder", password, "outputFolder", tracker, properties
);

特長

AI/LLMパイプライン向け

Markdown、JSON、HTML形式での構造化出力は、AIモデルへの入力データ生成に最適です。

バッチ処理対応

単一ファイルだけでなく、フォルダ内の全PDFを一括で処理できます。

パスワード保護対応

暗号化されたPDFからもパスワードを指定してコンテンツを抽出できます。

JPedal 無料トライアル

JPedalの全機能を無料でお試しいただけます。トライアル版は評価目的でのご利用が可能です。

無料トライアルを申し込む