はじめに
JPedalを実行する
JPedalの使い方
機能
JPedal Viewer
- JPedalのBase ViewerでPDFを見る
- カスタマイズ可能なビューアでのPDFファイルを表示する
- JavaのコードからPDF Viewerの機能にアクセス
- Java PDF Viewerでユーザーインターフェイスをカスタマイズ
- ビューアにオブジェクトを描画
- JavaアプリケーションにPDFビューアを追加する方法
- ビューアの機能をカスタマイズする
- JPedalインスペクタでPDFファイルの内容を検査
- PDFビューアの通知ポップアップを独自のものに置き換える
- JPedal のアクセシビリティオプション
- Java PDF Viewerを使ってポートフォリオファイルを表示
- Java PDF Viewerでテキストを選択
- JPedal ViewerはJavaFXで使用できますか?
- JPedal ViewerはSWTで使用できますか?
- JPedal ビューアでダークモードを設定する
- 線の太さを非表示にする
- すべての記事を表示 ( 1 ) 記事を折り畳む
テキスト関連
画像への変換
画像の抽出
PDF画像変換のWebサービスAPI
フォームについて
PDFの注釈(アノテーション)
PDFの操作
印刷について
メタデータ
フォントについて
JPedalをクラウド上で実行する
アップデート情報
cURLを使ってPDFからテキストを抽出する
目次
はじめに
以下のチュートリアルでは、ホスティングされたJPedalクラウドAPIを使ってPDFからテキストを抽出する方法を紹介します。セルフホスト型のJPedalマイクロサービスをセットアップすることもできます。
以下の例では、URLに https://my-self-hosted-service.com/JPedal を使用していますが、これをあなたのホストするサービスのURLに置き換えてください。
上記のサービスには、REST APIを使ってcURLでアクセスすることができます。
前提条件
始める前に、cURLがインストールされていることを確認してください。セットアップはオペレーティング・システムによって異なりますが、詳細はcurlのウェブサイトを参照してください。
サンプルコード
PDFからテキストを抽出する基本的なコード例です。
ファイルエントリーは、’@’の後にファイルへのパス(絶対または相対)を続けなければならないことに注意してください。
設定オプションや高度な機能については以下をご覧ください。
curl -X POST -F input="upload" -F file="@/path/to/file/myfile.pdf" -F settings="{\"mode\":\"convertToImages\",\"format\":\"png\"}" https://my-self-hosted-service.com/jpedal
注:設定の形式は、お使いのプラットフォームによって異なります。以下の設定オプションを参照してください。
レスポンスはuuidを含むJSON形式となります。
{"uuid" : "aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa"}
抽出の進行状況をポーリングできます。抽出が完了したら、出力の URL を取得します。
curl https://my-self-hosted-service.com/jpedal?uuid=aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa
応答はJSON形式で、以下の詳細が提供されます。
{
"state" : "processed",
"downloadUrl" : "output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile.zip",
"previewUrl" : "output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile/index.html"
}
ブラウザで出力をプレビューするには、previewURLを使用できます。
また、downloadURLを使って変換された出力をダウンロードすることもできます。これは以下のcURLリクエストで実行できます。
# 名前を付けて現在のディレクトリにダウンロードします(この場合は "myfile.zip")。
curl https://my-self-hosted-service.com/jpedal/output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile.zip -LO --output "output.zip"
結果をコールバックURLに返信
JPedal マイクロサービスは、抽出の完了時にステータスを送信するコールバック URL を受け付けます。コールバックURLを使用すると、抽出がいつ完了したかを判断するためにサービスをポーリングする必要がなくなります。
コールバックURLは以下のように指定します。
curl -X POST -F input="upload" -F callbackUrl="http://listener.url" -F file="@/path/to/file/myfile.pdf" -F settings="{\"mode\":\"convertToImages\",\"format\":\"png\"}" https://my-self-hosted-service.com/jpedal
設定オプション
JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む文字列化されたJSONオブジェクトを受け付けます。この設定は、cURLコマンドのURLの前に追加する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちらからご覧いただけます。
ダブルクォートをエスケープする構文は、使用する環境によって異なる場合があることに注意してください。必ず、お使いの環境に合ったものを確認してください。
PowerShellの場合、解析エラーを避けるために、コマンドはcurl.exe --%で始まる必要があることに注意してください。
URLによるアップロード
ローカルファイルをアップロードするだけでなく、JPedalマイクロサービスがダウンロードして抽出を行うURLを指定することもできます。そのためには、inputとfileの値を以下のように置き換えてください。
-F input=download -F url="http://exampleURL/exampleFile.pdf"
認証の使用
PDFからテキストを抽出するためにユーザ名とパスワードを必要とする独自のJPedalマイクロサービスをデプロイする場合、変換のたびにユーザ名とパスワードを提供する必要があります。これらは、URLの前にユーザ名とパスワードを持つユーザフラグを追加することで提供されます。
--user username:password