構造化コンテンツ抽出
JPedalは、PDFからテキスト、画像、メタデータ、構造化コンテンツを多様なフォーマットで抽出できます。タグ付きPDF(Tagged PDF)の構造情報を活用し、見出し・段落・テーブル・リストなどの文書構造をEPUB、HTML、JSON、Markdown、XML、YAML形式で正確に出力します。AIや自然言語処理、データ分析パイプラインへの入力データ生成に最適です。
抽出機能
構造化テキスト抽出
タグ付きPDFの構造を維持し、見出し・段落・テーブル等を構造化データとして抽出します。
マルチフォーマット出力
EPUB、HTML、JSON、Markdown、XML、YAML形式での出力に対応します。
画像抽出
PDF内の画像をクリッピング付きで抽出。JPEG/PNG形式で個別ファイルとして保存します。
メタデータ抽出
タイトル、著者、作成日、ページ数、ページ寸法等の文書プロパティを取得します。
テキスト検索
PDF内のテキストを座標付きで検索。テキストの物理的な位置情報も取得可能です。
ワードリスト抽出
PDFからXML形式でワードリストを抽出。インデックス作成や全文検索に活用できます。
コード例
各フォーマットへの抽出コードサンプル
構造化PDFからレスポンシブHTMLを生成
String password = null;
ErrorTracker tracker = null;
ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();
properties.setFileOutputMode(OutputModes.HTML);
ExtractStructuredText.writeAllStructuredTextOutlinesToDir(
"inputFileOrFolder", password, "outputFolder", tracker, properties
);特長
✓
AI/LLMパイプライン向け
Markdown、JSON、HTML形式での構造化出力は、AIモデルへの入力データ生成に最適です。
✓
バッチ処理対応
単一ファイルだけでなく、フォルダ内の全PDFを一括で処理できます。
✓
パスワード保護対応
暗号化されたPDFからもパスワードを指定してコンテンツを抽出できます。
