任意のPDFファイルからページ上の文字を抽出

作成日2024年1月30日

最終更新日2024年1月30日

JPedalは、PDFファイルからテキストコンテンツを抽出する方法をいくつか提供しています。このケースでは、ファイルから単一の単語とその座標を抽出することができます。

コマンドラインまたは他の言語でPDFから単語を抽出

				
					java --module-path . --add-modules com.idrsolutions.<a href="https://www.intwk.co.jp/jpedal/" title="PDFドキュメントを扱う必要のあるJava開発者のためのPDFライブラリです。このライブラリは、PDFファイルを扱う際の一般的な問題を解決します。" hreflang="ja" onover-preload="1">jpedal</a> org/<a href="https://www.intwk.co.jp/jpedal-portal/" title="JPEDAL-PORTAL - 株式会社インターワーク" hreflang="ja" onover-preload="1">jpedal</a>/examples/text/<a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractTextAsWordlist.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractTextAsWordlist">ExtractTextAsWordlist</a> "inputFileOrDir" "outputDir"

Java 11以降のモジュールを推奨しています。古いバージョンを使用している場合は、クラスパスを使用する必要があります。

API メソッドにアクセスする例

				
					ExtractTextAsWordlist extract = new ExtractTextAsWordlist("C:/pdfs/mypdf.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
    int pageCount = extract.getPageCount();
    for (int page = 1; page

JavaでPDFから単語を抽出

				
					ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrDirectory", "outputDir", -1);

この例では、JPedal ExtractTextAsWordlistクラスを使用しています。ExtractTestAsWordlist はページごとに txt ファイルを出力し、ファイルの各行は座標の word、x1、y1、x2、y2 値を含むカンマ区切りの文字列です。

使用される座標

戻り値に使用されている座標は、x1, y1, x2, y2として定義されている4つの値（PDFページ上の左、上、右、下の値）によって定義されています。PDFページでは、ページの左下が原点となります。

はじめに

JPedalを実行する

Javadoc

Javaバージョンのサポート

IDEにJPedalを設定する方法

JPedalの使い方

機能

JPedal Viewer

テキスト関連

テキスト抽出のWebサービスAPI

画像への変換

画像の抽出

PDF画像変換のWebサービスAPI

フォームについて

PDFの注釈(アノテーション)

PDFの操作

印刷について

メタデータ

フォントについて

JPedalをクラウド上で実行する

オプション設定

java アプリケーションサーバーへデプロイする

Docker を使用して独自のクラウド API をホストする

アップデート情報

任意のPDFファイルからページ上の文字を抽出

コマンドラインまたは他の言語でPDFから単語を抽出

API メソッドにアクセスする例

JavaでPDFから単語を抽出

使用される座標