< 戻る
印刷

PDFファイルから目次(しおり)とリンクを抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは、タイトルリンクページを含む目次(しおり)であり、ズームや正確な表示領域をコントロールすることができます。このオブジェクトが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルから文書のアウトラインを抽出することができます。アウトラインがない場合は、ファイルは作成されません。

コマンドラインや他の言語から、PDFからアウトラインを抽出する

				
					java -jar <a href="https://www.intwk.co.jp/jpedal/" title="PDFドキュメントを扱う必要のあるJava開発者のためのPDFライブラリです。このライブラリは、PDFファイルを扱う際の一般的な問題を解決します。" hreflang="ja" onover-preload="1">jpedal</a>.jar --metadata "pdfFile.pdf" outline
				
			

これにより、アウトラインデータがJSONオブジェクトの文字列としてコンソールに出力されます。

APIメソッドにアクセスする例

				
					<a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">ExtractOutline</a> extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     <a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">Document</a> pdfOutline=extract.getPDFTextOutline();
 }

 extract.closePDFfile();
				
			

JavaでPDFからアウトラインを抽出する

				
					ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");
				
			

この例では、JPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むXMLファイルをPDFごとに出力します。

MENU