< 戻る
印刷

PDFファイルから文書の目次(しおり)を抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供します。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは目次(しおり)であり、タイトルやリンクページを含むことができ、ズームや正確な表示領域をコントロールすることができます。これが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。このケースでは、ファイルから文書の目次を抽出します。目次がない場合、ファイルは作成されません。

コマンドラインまたは他の言語でPDFから目次(しおり)を抽出する

				
					java -jar <a href="https://www.intwk.co.jp/jpedal/" title="PDFドキュメントを扱う必要のあるJava開発者のためのPDFライブラリです。このライブラリは、PDFファイルを扱う際の一般的な問題を解決します。" hreflang="ja" onover-preload="1">jpedal</a>.jar --metadata "pdfFile.pdf" outline
				
			

これは、アウトラインデータをJSONオブジェクトの文字列としてコンソールに出力します。

APIメソッドにアクセスする例

				
					<a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">ExtractOutline</a> extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     <a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">Document</a> pdfOutline=extract.getPDFTextOutline();
 }

 extract.closePDFfile();
				
			

JavaでPDFから目次(しおり)を抽出

				
					ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");

				
			

この例ではJPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むPDFごとのXMLファイルを出力します。

MENU
PAGE TOP