fbpx
< 戻る
印刷

PDFファイルから目次(しおり)とリンクを抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供しています。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは、タイトルリンクページを含む目次(しおり)であり、ズームや正確な表示領域をコントロールすることができます。このオブジェクトが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。この場合、ファイルから文書のアウトラインを抽出することができます。アウトラインがない場合は、ファイルは作成されません。

コマンドラインや他の言語から、PDFからアウトラインを抽出する

				
					java -jar jpedal.jar --metadata "pdfFile.pdf" outline
				
			

これにより、アウトラインデータがJSONオブジェクトの文字列としてコンソールに出力されます。

APIメソッドにアクセスする例

				
					ExtractOutline extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     Document pdfOutline=extract.getPDFTextOutline();
 }

 extract.closePDFfile();
				
			

JavaでPDFからアウトラインを抽出する

				
					ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");
				
			

この例では、JPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むXMLファイルをPDFごとに出力します。

    MENU
    PAGE TOP