< 戻る
印刷
PDFファイルから目次(しおり)とリンクを抽出する
作成日
最終更新日
JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは、タイトルやリンクページを含む目次(しおり)であり、ズームや正確な表示領域をコントロールすることができます。このオブジェクトが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルから文書のアウトラインを抽出することができます。アウトラインがない場合は、ファイルは作成されません。
コマンドラインや他の言語から、PDFからアウトラインを抽出する
java -jar jpedal.jar --metadata "pdfFile.pdf" outline
これにより、アウトラインデータがJSONオブジェクトの文字列としてコンソールに出力されます。
APIメソッドにアクセスする例
ExtractOutline extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
Document pdfOutline=extract.getPDFTextOutline();
}
extract.closePDFfile();
JavaでPDFからアウトラインを抽出する
ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");
この例では、JPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むXMLファイルをPDFごとに出力します。
目次