PDFファイルから目次(しおり)とリンクを抽出する

作成日2023年5月8日

最終更新日2023年5月8日

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは、タイトルやリンクページを含む目次(しおり)であり、ズームや正確な表示領域をコントロールすることができます。このオブジェクトが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルから文書のアウトラインを抽出することができます。アウトラインがない場合は、ファイルは作成されません。

コマンドラインや他の言語から、PDFからアウトラインを抽出する

				
					java -jar jpedal.jar --metadata "pdfFile.pdf" outline

これにより、アウトラインデータがJSONオブジェクトの文字列としてコンソールに出力されます。

APIメソッドにアクセスする例

				
					ExtractOutline extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     Document pdfOutline=extract.getPDFTextOutline();
 }

 extract.closePDFfile();

JavaでPDFからアウトラインを抽出する

				
					ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");

この例では、JPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むXMLファイルをPDFごとに出力します。

はじめに

JPedalを実行する

Javadoc

Javaバージョンのサポート

IDEにJPedalを設定する方法

JPedalの使い方

機能

JPedal Viewer

テキスト関連

テキスト抽出のWebサービスAPI

画像への変換

画像の抽出

PDF画像変換のWebサービスAPI

フォームについて

PDFの注釈(アノテーション)

PDFの操作

印刷について

メタデータ

フォントについて

JPedalをクラウド上で実行する

オプション設定

java アプリケーションサーバーへデプロイする

Docker を使用して独自のクラウド API をホストする

アップデート情報

PDFファイルから目次(しおり)とリンクを抽出する

コマンドラインや他の言語から、PDFからアウトラインを抽出する

APIメソッドにアクセスする例

JavaでPDFからアウトラインを抽出する