構造化されているテキストの抽出

作成日2024年1月16日

最終更新日2024年1月16日

構造化されたPDFファイルと構造化されていないPDFファイル

PDF ファイルは、構造化された PDF ファイル (ページ構造に関する情報を含む) または構造化されていない PDF ファイル (構造情報を含まず、コンテンツがどのような順序であってもよい) を作成することができます。これはPDFが作成されるときに発生し、非構造化PDFファイルを構造化PDFファイルに変換することはできません。

PDFファイルは、PDF内のテキストコンテンツの構造を保持するためにメタデータタグを含むことができます（これはPDFファイルが作成されるときのオプションです）。存在する場合、JPedalはPDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供します。この場合、PDF内に存在するあらゆる構造化テキストを抽出することができます。存在しない場合、出力ファイルには、コンテンツが得られなかったことを説明する簡単なメッセージが含まれます。

構造化PDFファイルの利点は、コンテンツを抽出して他の形式に変換できることです。JPedalは現在、このコンテンツをXMLまたはHTMLコンテンツとして出力することをサポートしています。

コマンドラインまたは他の言語からPDFから構造化テキストを抽出

コンテンツをXMLとして抽出する場合

				
					java --module-path . --add-modules com.idrsolutions.<a href="https://www.intwk.co.jp/jpedal/" title="PDFドキュメントを扱う必要のあるJava開発者のためのPDFライブラリです。このライブラリは、PDFファイルを扱う際の一般的な問題を解決します。" hreflang="ja" onover-preload="1">jpedal</a> org/<a href="https://www.intwk.co.jp/jpedal-portal/" title="JPEDAL-PORTAL - 株式会社インターワーク" hreflang="ja" onover-preload="1">jpedal</a>/examples/text/<a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractStructuredText.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractStructuredText">ExtractStructuredText</a> 
"inputFileOrDir" "outputDir" "xml"

コンテンツをHTMLとして抽出する場合

				
					java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractStructuredText 
"inputFileOrDir" "outputDir" "html"

Java 11以降のモジュールを推奨します。古いバージョンを使用している場合は、クラスパスを使用する必要があります。

APIアクセスでの利用のコードサンプル

				
					 ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();
 properties.setFileOutputMode(OutputModes.XML);
 //properties.setFileOutputMode(OutputModes.HTML);
 ExtractStructuredText extract = new ExtractStructuredText("C:/pdfs/mypdf.pdf", properties);
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     <a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">Document</a> anyStructuredText = extract.getStructuredTextContent();
 }

 extract.closePDFfile();

Javaでタグ付きPDFから構造化テキストを抽出

				
					//構造化テキストをXMLとして抽出するのがデフォルトです
ExtractStructuredText.
writeAllStructuredTextOutlinesToDir("inputFileOrDirectory", "outputDir");

//構造テキストの抽出をオプションでより自由にコントロール
final String password = null; //null is used when no password required
final ErrorTracker tracker = null; //ErrorTracker implementations can be used to monitor extraction
ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();
properties.setFileOutputMode(OutputModes.XML);
//properties.setFileOutputMode(OutputModes.HTML);
        
ExtractStructuredText.
writeAllStructuredTextOutlinesToDir("inputFileOrDirectory", password, "outputDir", tracker, properties);

この例では、JPedal ExtractStructuredTextクラスを使用しています。ExtractStructuredTextは、ファイルが含む構造化コンテンツを詳細に記述したファイルのXMLファイルを出力します。

使用される座標

抽出方式はすべて、指定された矩形内の PDF テキストを抽出します。この矩形の座標の必須フォーマットは x1, y1 （左上隅）と x2, y2 （右下隅）です。ページ原点は左下（Java とは逆）です。

はじめに

JPedalを実行する

Javadoc

Javaバージョンのサポート

IDEにJPedalを設定する方法

JPedalの使い方

機能

JPedal Viewer

テキスト関連

テキスト抽出のWebサービスAPI

画像への変換

画像の抽出

PDF画像変換のWebサービスAPI

フォームについて

PDFの注釈(アノテーション)

PDFの操作

印刷について

メタデータ

フォントについて

JPedalをクラウド上で実行する

オプション設定

java アプリケーションサーバーへデプロイする

Docker を使用して独自のクラウド API をホストする

アップデート情報