大量の PDF ドキュメントを Fess と BuildVu を使って、高速ドキュメント検索システムを構築する

Quiitaの記事として、BuildVuを使った高速ドキュメントデータベースの構築例をまとめました。

是非、ご覧下さい。

大量の PDF ドキュメントを Fess と BuildVu を使って、高速ドキュメント検索システムを構築する
https://qiita.com/iwanami-intwk/items/d64d392ed28cd8a05de6

PDF を HTML に正確に変換できる BuildVu と、オープンソースの全文検索サーバー Fess を組み合わせることで、大量の PDF からドキュメントデータベースを構築し、高速ドキュメント検索システムを短時間で構築する事が可能です。

本稿では BuildVu で PDF から HTML へ変換されたドキュメントを Fess で検索できるようにするための Fess の設定例をご紹介します。
なお、利用している Fess のバージョンは 13.2.1 です。

こんな分野・用途でBuildVuは活躍しています

BuildVuは様々な分野、用途で利用されています。取扱説明書、商品カタログ、電子出版社、PR誌・会員誌、建築設計・デザイン、金融・保険・フィンテック会社、人材派遣・リクルーティング、官公庁、調査会社、研究機関、教育機関、学習塾、通信教育、医薬情報・MR、規格書・規定書・法令集、社内文書の共有など

変換されたドキュメントの構造

変換されたファイル(一部)以下は、変換されたドキュメントの内訳で、生成されるHTMLとJSONのアセットを示しています。実際のドキュメントはこちら1.htmlconfig.jsannotation.jsonsearch.jason

Javaを使ってPDFを画像に変換

Javaを使って、WebサービスAPIでPDFを画像に変換する方法をサンプルコードとともに解説します。

HTML5やSVG専用のPDF変換ソフトを選びましょう

~ PDF編集ソフトのHTML変換は、低性能なオマケ機能かも!?「PDFをHTMLに変換すればいい」と単純に考えるのは危険です。PDFをHTMLに変換するには、例えばAdobe Acrobat DCを使って「書き出し形式 HTML Webページ」のような方法がありますが、これでは不十分です。PDF変換ソフト(PDF編集ソフト)に求められる性能のひとつが、PDFからHTMLへ変換した際の“見た目”の再現性です。Acrobatでは元のPDFドキュメントを正確に再現して書き出すこと