-
はじめに
-
JPedalを実行する
-
JPedalの使い方
-
機能
-
JPedal Viewer
- JPedalのBase ViewerでPDFを見る
- カスタマイズ可能なビューアでのPDFファイルを表示する
- JavaのコードからPDF Viewerの機能にアクセス
- Java PDF Viewerでユーザーインターフェイスをカスタマイズ
- ビューアにオブジェクトを描画
- JavaアプリケーションにPDFビューアを追加する方法
- ビューアの機能をカスタマイズする
- JPedalインスペクタでPDFファイルの内容を検査
- PDFビューアの通知ポップアップを独自のものに置き換える
- JPedal のアクセシビリティオプション
- Java PDF Viewerを使ってポートフォリオファイルを表示
- Java PDF Viewerでテキストを選択
- JPedal ViewerはJavaFXで使用できますか?
- JPedal ViewerはSWTで使用できますか?
- JPedal ビューアでダークモードを設定する
- 線の太さを非表示にする
- すべての記事を表示 ( 1 ) 記事を折り畳む
-
テキスト関連
-
画像への変換
-
画像の抽出
-
PDF画像変換のWebサービスAPI
-
フォームについて
-
PDFの注釈(アノテーション)
-
PDFの操作
-
印刷について
-
メタデータ
-
フォントについて
-
JPedalをクラウド上で実行する
-
アップデート情報
< 戻る
印刷
任意のPDFファイルからページ上の文字を抽出
作成日2024年1月30日
最終更新日2024年1月30日
JPedalは、PDFファイルからテキストコンテンツを抽出する方法をいくつか提供しています。このケースでは、ファイルから単一の単語とその座標を抽出することができます。
コマンドラインまたは他の言語でPDFから単語を抽出
java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractTextAsWordlist "inputFileOrDir" "outputDir"
Java 11以降のモジュールを推奨しています。古いバージョンを使用している場合は、クラスパスを使用する必要があります。
API メソッドにアクセスする例
ExtractTextAsWordlist extract = new ExtractTextAsWordlist("C:/pdfs/mypdf.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
int pageCount = extract.getPageCount();
for (int page = 1; page <= pageCount; page++) {
List wordList = extract.getWordsOnPage(page);
}
}
extract.closePDFfile();
JavaでPDFから単語を抽出
ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrDirectory", "outputDir", -1);
この例では、JPedal ExtractTextAsWordlistクラスを使用しています。ExtractTestAsWordlist はページごとに txt ファイルを出力し、ファイルの各行は座標の word、x1、y1、x2、y2 値を含むカンマ区切りの文字列です。
使用される座標
戻り値に使用されている座標は、x1, y1, x2, y2として定義されている4つの値(PDFページ上の左、上、右、下の値)によって定義されています。PDFページでは、ページの左下が原点となります。