cURLを使ってPDFからテキストを抽出する

作成日2024年1月31日

最終更新日2024年2月7日

はじめに

以下のチュートリアルでは、ホスティングされたJPedalクラウドAPIを使ってPDFからテキストを抽出する方法を紹介します。セルフホスト型のJPedalマイクロサービスをセットアップすることもできます。
以下の例では、URLに https://my-self-hosted-service.com/JPedal を使用していますが、これをあなたのホストするサービスのURLに置き換えてください。

上記のサービスには、REST APIを使ってcURLでアクセスすることができます。

前提条件

始める前に、cURLがインストールされていることを確認してください。セットアップはオペレーティング・システムによって異なりますが、詳細はcurlのウェブサイトを参照してください。

サンプルコード

PDFからテキストを抽出する基本的なコード例です。
ファイルエントリーは、’@’の後にファイルへのパス（絶対または相対）を続けなければならないことに注意してください。
設定オプションや高度な機能については以下をご覧ください。

				
					curl -X POST -F input="upload" -F file="@/<a href="https://pub.dev/packages/path" target="_blank" title="A string-based path manipulation library. All of the path operations you know and love, with solid support for Windows, POSIX (Linux and Mac OS X), and the web." hreflang="en-us">path</a>/to/file/myfile.pdf" -F settings="{\"mode\":\"convertToImages\",\"format\":\"png\"}" https://my-self-hosted-service.com/<a href="https://www.intwk.co.jp/jpedal-portal/" title="JPEDAL-PORTAL" onover-preload="1">jpedal</a>

注：設定の形式は、お使いのプラットフォームによって異なります。以下の設定オプションを参照してください。

レスポンスはuuidを含むJSON形式となります。

				
					 {"uuid" : "aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa"}

抽出の進行状況をポーリングできます。抽出が完了したら、出力の URL を取得します。

				
					curl https://my-self-hosted-service.com/jpedal?uuid=aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa

応答はJSON形式で、以下の詳細が提供されます。

				
					 {
     "state" : "processed", 
     "downloadUrl" : "output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile.zip",
     "previewUrl" : "output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile/index.html"
 }

ブラウザで出力をプレビューするには、previewURLを使用できます。

また、downloadURLを使って変換された出力をダウンロードすることもできます。これは以下のcURLリクエストで実行できます。

				
					# 名前を付けて現在のディレクトリにダウンロードします（この場合は "myfile.zip"）。
curl https://my-self-hosted-service.com/jpedal/output/aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa/myfile.zip -LO --output "output.zip"

結果をコールバックURLに返信

JPedal マイクロサービスは、抽出の完了時にステータスを送信するコールバック URL を受け付けます。コールバックURLを使用すると、抽出がいつ完了したかを判断するためにサービスをポーリングする必要がなくなります。
コールバックURLは以下のように指定します。

				
					curl -X POST -F input="upload" -F callbackUrl="http://listener.url" -F file="@/path/to/file/myfile.pdf" -F settings="{\"mode\":\"convertToImages\",\"format\":\"png\"}" https://my-self-hosted-service.com/jpedal

設定オプション

JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む文字列化されたJSONオブジェクトを受け付けます。この設定は、cURLコマンドのURLの前に追加する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちらからご覧いただけます。

ダブルクォートをエスケープする構文は、使用する環境によって異なる場合があることに注意してください。必ず、お使いの環境に合ったものを確認してください。

PowerShellの場合、解析エラーを避けるために、コマンドはcurl.exe --%で始まる必要があることに注意してください。

URLによるアップロード

ローカルファイルをアップロードするだけでなく、JPedalマイクロサービスがダウンロードして抽出を行うURLを指定することもできます。そのためには、inputとfileの値を以下のように置き換えてください。

				
					-F input=download -F url="<a href="https://pub.dev/packages/http" target="_blank" title="A composable, multi-platform, Future-based API for HTTP requests." hreflang="en-us">http</a>://exampleURL/exampleFile.pdf"

認証の使用

PDFからテキストを抽出するためにユーザ名とパスワードを必要とする独自のJPedalマイクロサービスをデプロイする場合、変換のたびにユーザ名とパスワードを提供する必要があります。これらは、URLの前にユーザ名とパスワードを持つユーザフラグを追加することで提供されます。

				
					--user username:password

詳細情報

Offical cURL website
JPedal Microservice API
JPedal Microservice Use

はじめに

JPedalを実行する

Javadoc

Javaバージョンのサポート

IDEにJPedalを設定する方法

JPedalの使い方

機能

JPedal Viewer

テキスト関連

テキスト抽出のWebサービスAPI

画像への変換

画像の抽出

PDF画像変換のWebサービスAPI

フォームについて

PDFの注釈(アノテーション)

PDFの操作

印刷について

メタデータ

フォントについて

JPedalをクラウド上で実行する

オプション設定

java アプリケーションサーバーへデプロイする

Docker を使用して独自のクラウド API をホストする

アップデート情報

cURLを使ってPDFからテキストを抽出する

目次

はじめに

前提条件

サンプルコード

結果をコールバックURLに返信

設定オプション

URLによるアップロード

認証の使用

詳細情報