Rubyを使ってPDFからテキストを抽出する

作成日2024年2月2日

最終更新日2024年2月2日

はじめに

以下のチュートリアルでは、ホスティングされたJPedalクラウドAPIを使ってPDFからテキストを抽出する方法を紹介します。セルフホスト型のJPedalマイクロサービスをセットアップすることもできます。

上記のサービスは古いHTTPリクエストでアクセスできますが、このチュートリアルでは、オープンソースのRuby IDRCloudClientを使用し、REST APIのシンプルなRubyラッパーを提供します。

前提条件

プロジェクトでIDRCloudClientを使用するには、2つのアプローチがあります。

gemを使用して、次のコマンドでidr_cloud_client gemをインストールします：

				
					gem install idr_cloud_client

または、アプリケーションのgemfileに “gem ‘idr_cloud_client'”という行を追加し、以下のコマンドを実行することもできます。

				
					bundle install

サンプルコード

PDFからテキストを抽出する基本的なコード例です。
設定オプションや高度な機能については以下をご覧ください。

				
					require 'idr_cloud_client'

client = IDRCloudClient.new('https://my-self-hosted-service.com/' + IDRCloudClient::JPEDAL)

result = client.convert(
    input: IDRCloudClient::UPLOAD, 
    file: 'path/to/exampleFile.pdf',
    , 
    settings: '{"mode":"extractText","type":"plainText"}')

client.download_result(result, 'path/to/output/dir')

puts 'Download URL: ' + result['downloadUrl']

結果をコールバックURLに返信

JPedal マイクロサービスは、抽出の完了時にステータスを送信するコールバック URL を受け付けます。コールバックURLを使用すると、抽出がいつ完了したかを判断するためにサービスをポーリングする必要がなくなります。
コールバックURLは以下のように指定します。

				
					result = client.convert(
    input: IDRCloudClient::UPLOAD,
    callbackUrl: 'http://listener.url',
    file: 'path/to/exampleFile.pdf',
    , 
    settings: '{"mode":"extractText","type":"plainText"}')

設定オプション

JPedal APIは、抽出をカスタマイズするためのキーと値のペアの設定オプションを含む文字列化されたJSONオブジェクトを受け付けます。この設定は、cURLコマンドのURLの前に追加する必要があります。PDFからテキストを抽出するための設定オプションの完全なリストはこちらからご覧いただけます。

				
					settings:'{"key":"value","key":"value"}'

URLによるアップロード

ローカルファイルをアップロードするだけでなく、JPedalマイクロサービスがダウンロードして抽出を行うURLを指定することもできます。そのためには、inputとfileの値を以下のように置き換えてください。

				
					input:IDRCloudClient.DOWNLOAD
url:'http://exampleURL/exampleFile.pdf'

認証の使用

PDFからテキストを抽出するためにユーザ名とパスワードを必要とする独自のJPedalマイクロサービスをデプロイする場合、変換のたびにユーザ名とパスワードを提供する必要があります。これらは、URLの前にユーザ名とパスワードを持つユーザフラグを追加することで提供されます。

				
					auth:('username', 'password'))

詳細情報

IDRCloudClient on GitHub
IDRCloudClient on RUBY
JPedal Microservice API
JPedal Microservice Use

はじめに

JPedalを実行する

Javadoc

Javaバージョンのサポート

IDEにJPedalを設定する方法

JPedalの使い方

機能

JPedal Viewer

テキスト関連

テキスト抽出のWebサービスAPI

画像への変換

画像の抽出

PDF画像変換のWebサービスAPI

フォームについて

PDFの注釈(アノテーション)

PDFの操作

印刷について

メタデータ

フォントについて

JPedalをクラウド上で実行する

オプション設定

java アプリケーションサーバーへデプロイする

Docker を使用して独自のクラウド API をホストする

アップデート情報

Rubyを使ってPDFからテキストを抽出する

目次

はじめに

前提条件

サンプルコード

結果をコールバックURLに返信

設定オプション

URLによるアップロード

認証の使用

詳細情報