Apache Tikaを使ったテキストの抽出

作成日2024年1月30日

最終更新日2024年1月30日

JPedalはApache TikaのParserインターフェイスと互換性があります。

現在のところ、構造化テキストと非構造化テキストの両方をサポートしています。

使用例

				
					try (final TikaInputStream tik = TikaInputStream.get(Paths.get("<a href="https://pub.dev/packages/path" target="_blank" title="A string-based path manipulation library. All of the path operations you know and love, with solid support for Windows, POSIX (Linux and Mac OS X), and the web." hreflang="en-us">path</a>/file.pdf"))) {
    final <a href="https://files.idrsolutions.com/maven/site/jpedal/apidocs/org/jpedal/tika/PDFParser.html" target="_blank" title="declaration: package: org.jpedal.tika, class: PDFParser">PDFParser</a> parser = new PDFParser(UNSTRUCTURED_TEXT);

    // writeLimitを-1に設定します。そうしないと、最初の100000文字だけが解析されます。
    final BodyContentHandler handler = new BodyContentHandler(-1);

    // 必要に応じてパスワードを設定可能
    final Metadata metadata = new Metadata();
    // metadata.set(PDFParser.PASSWORD, "password");

    // parseContext は必須ではないので、NULL でもかまいません。
    parser.parse(tik, handler, metadata, null);

    // 結果をプリント
    System.out.println(handler);
} catch (final IOException | SAXException | TikaException e) {
    e.printStackTrace();
}

PDFParserについての詳細をご覧下さい。

PAGE TOP