AcroForm
AcroFormは、PDF 1.2で導入されたPDFフォーム形式です。カタログ(/Catalog)に追加される辞書(/AcroForm)を使用します。
アクション(Action)
アクションは、ユーザーの操作やイベントによって自動的にトリガーされる動作です。一般的には、異なるページへのナビゲートやマルチメディアコンテンツの再生に使用されます。
Adobe Inc.
Adobe社は、オリジナルのPDFファイル形式を作成し、PDFファイルの作成と閲覧のための主要なソフトウェアであるDistillerやPDFリーダーを開発しました。現在、PDFの標準はオープンになっていますが、Adobeは依然として主要なプレイヤーです。
AES
Advanced Encryption Standard(高度暗号化標準)は、情報を保護するために使用される暗号化アルゴリズムです。
代替テキスト(Alt text)
代替テキスト(通常はaltテキスト)は、画像の説明文であり、アクセシビリティ技術によって使用されます。
注釈(Annotation)
注釈は、ページ上に配置され、ユーザーが操作できるメモ、リンク、またはリッチメディアです。
アンチエイリアシング(Anti-aliasing)
アンチエイリアシングは、ラスタライズされたコンテンツのエッジを滑らかにする技術です。
AP
APはAppearance(外観)の略で、インタラクティブな要素(フォームフィールドや注釈)がどのように表示されるかを定義します。APエントリは通常、ストリームまたはリソース辞書を含みます。
承認署名(Approval signature)
承認署名は、文書の変更を検出し、文書の署名者を確認できるデジタル署名です。
Arlingtonモデル
Arlingtonモデルは、すべてのPDFオブジェクトの機械可読なモデルです。
配列オブジェクト(Array object)
配列オブジェクトは、0から始まる順序で配置された一次元のオブジェクトのコレクションです。
アーティファクト(Artifact)
アーティファクトは、アクセシビリティ技術によって読み取られることを意図しない文書内の情報を提供します。
ASCII
American Standard Code for Information Interchange(米国情報交換標準コード)は、128文字の特定のセットをバイナリ数としてエンコードするための一般的な規約です。
AVIF
AV1 Image File Format(AVIF)は、画像を保存するためのフォーマットで、HEICに似ています。AVIFは、AV1ビデオコーデックをベースにした高効率の画像形式です。
バイナリデータ(Binary data)
バイナリデータは、意味を持つために通常コンテキストを必要とするバイトのシーケンスです。
ブレンド(Blending)
ブレンドモードは、2つの色が重ねて描画されたときに何が起こるかを定義します。
BMP
BMPは、ラスターグラフィックス画像ファイル形式です。
ブックマーク(Bookmarks)
ブックマークは、アウトラインの非公式な名称です。
ブールオブジェクト(Boolean object)
ブールオブジェクトは、trueまたはfalseのいずれかを表します。
バイト(Byte)
バイトは、8ビットのバイナリです。
カタログ(Catalog)
カタログは、文書の内容、アウトライン、記事のスレッド、名前付きの宛先、その他の属性を定義する他のオブジェクトへの参照を含みます。
CCITT
CCITTは、通常モノクロ画像に使用される可逆圧縮アルゴリズムです。
証明書(Certificate)
証明書は、デジタルコンテンツの真正性を証明します。
認証署名(Certification signature)
認証署名は、承認署名と非常に似ていますが、署名後の特定の操作をブロックする機能があります。
文字(Character)
文字は、エンコーディングによって定義された、文字、数字、または記号を表す数値コードです。一般的なエンコーディングには、ASCIIやUTF-8があります。
CIDフォント(CID fonts)
CIDフォントは、大規模な文字セット(特に中国語、日本語、韓国語)をサポートするために開発されたフォント形式です。CIDはCharacter Identifierの略です。
CMYK
CMYKは減法混色のカラーモデルで、シアン、マゼンタ、イエロー、キー(ブラック)を使用します。CMYKは白い背景に色をマスクするため、減法と呼ばれます。
カラースペース(Color spaces)
カラースペースは、異なるデバイスや出力で再現性のある結果を可能にする色の集合です。
コメント(Comment)
PDFファイル内のコメントは、ソースコードを読む人々のためにファイルを説明または注釈するために使用される、あまり使われない機能です。%記号を使用して書かれます。
圧縮オブジェクト(Compressed object)
圧縮オブジェクトはPDF 1.5で導入され、オブジェクトをバイナリストリームに格納し、それを圧縮することができます。
コンフォーマンス(Conformance)
コンフォーマンスは、PDFがPDF仕様の特定のサブセットのルールに準拠しているかどうかを指します。一般的なサブセットには、PDF/AやPDF/Xがあります。
コンテントストリーム(Content stream)
コンテントストリームは、ページ上に描画されるグラフィカル要素を含みます。
COS
Carousel Object Syntaxは、PDFファイル内でオブジェクトを記述するために使用される構文を指します。
クロスリファレンスストリーム(Cross reference stream)
クロスリファレンスストリームはPDF 1.5で導入され、クロスリファレンスセクションをストリーム内で定義し、スペースを大幅に節約します。
クロスリファレンスセクション(Cross reference section)
クロスリファレンスセクションは、PDFファイル内のオブジェクトとそれらのファイル内の位置を一覧表示するセクションであり、トレーラーの前に配置されます。
DCT
離散コサイン変換(Discrete Cosine Transform)は、JPEGやWebPで一般的に使用される数学的変換で、圧縮アルゴリズムの基礎となります。
廃止(Deprecated)
廃止と記載されたものは、今後サポートされない可能性があるため、使用が推奨されません。PDFの廃止された機能は、現代のPDFプロセッサーによって無視されることが多いです。例えば、XFAは廃止され、ほとんどのPDFリーダーでサポートされなくなりました。
辞書オブジェクト(Dictionary object)
辞書オブジェクトは、他のオブジェクトのキーと値のペアを含みます。
直接オブジェクト(Direct object)
直接オブジェクトは、間接オブジェクトの反対で、他のオブジェクトを指すのではなく、オブジェクトデータをその場に記述します。
ドキュメントパート(Document part)
ドキュメントパートは、関連するページの集合です。
ドキュメントパート階層(Document part hierarchy)
ドキュメントパート階層は、多数のドキュメントパートを組織化します。
EOLマーカー(EOL marker)
新しい行を作成するために使用される空白文字です。行の終わりには、キャリッジリターン(\\\\r)またはラインフィード(\\\\n)、またはその両方が使用されます。
EXIF
EXIFは、画像ファイルのためのメタデータ形式です。
FDFファイル
Forms Data Formatファイルは、PDFフォームからのフォームデータと注釈データを保存します。
フィルター(Filter)
フィルターは、ストリームをエンコードすることを可能にし、通常はスペースを節約します。
フォント(Font)
フォントは、書体を実現するための実装です。
フォントプログラム(Font program)
フォントプログラム(フォントファイルとも呼ばれる)は、フォントをどのように描画するかを記述したファイルです。
フォーム(Form)
PDFフォームは、ユーザーが個人情報を入力できる記入可能なフィールドやその他のインタラクティブな機能を含みます。
世代番号(Generation number)
世代番号は、同じオブジェクトの異なるリビジョンを表す正の整数です。ほとんどの場合、その値はゼロです。
GhostScript
GIF
GIFは、アニメーション画像をサポートする可逆圧縮の画像形式ですが、色数が256色に制限されています。
グリフ(Glyph)
グリフは、文字、数字、または抽象的な記号の具体的な視覚形態です。
グラフィックスステート(Graphics state)
グラフィックスステートは、現在実行中のグラフィックスオペレータに影響を与えるグラフィックス制御パラメータのスタックです。
HEIC
High Efficiency Image File Formatは、Appleが開発した高効率の画像形式です。オープン標準ですが、主にAppleデバイスで使用されています。
ヒンティング(Hinting)
フォントヒンティングは、フォントの表示を調整し、ラスタライズされたグリッドに合わせるための指示を指します。低解像度の画面で読みやすいテキストを生成するために不可欠です。
HTML
HyperText Markup Languageは、ウェブブラウザで表示するためのウェブページを作成するための言語です。通常、JavaScriptやCSSと共に使用されます。
インクリメンタルアップデート(Incremental updates)
インクリメンタルアップデートは、PDFファイル全体を変更することなく更新できることを指します。変更はファイルの末尾に追加され、元の内容は変更されません。
間接オブジェクト(Indirect object)
間接オブジェクトは、オブジェクト識別子でラベル付けされ、キーワードobjとendobjの間にあります。
整数オブジェクト(Integer object)
整数オブジェクトは、分数部分を持たない正または負の整数を含むオブジェクトです。
ISO 32000
ISO 32000は、PDFファイル形式を定義する技術仕様書です。
JavaScript
JavaScriptは、ウェブサイトで一般的に使用されるプログラミング言語ですが、PDFファイル内でもフォームの検証やインタラクティブな要素のために利用できます。注意:JavaとJavaScriptは異なる言語であり、名前が似ていますが別のプログラミング言語です。Java開発者は混同しないよう注意が必要です。
JBIG2
JBIG2は、2色(通常は黒と白)の画像のための画像圧縮標準です。
JPEG
Joint Photographic Experts Groupは、非常に一般的な不可逆圧縮の画像ファイル形式です。
JPEG 2000
JPEG 2000(JP2またはJPXとも)は、JPEGの後継として設計されたファイル形式で、より良い圧縮と高品質の画像を提供します。
JPEG XL
JPEG XLは、最新の画像ファイル形式であり、JPEG 2000よりも優れた圧縮と品質を持つことを目的としています。
カーニング(Kerning)
カーニングは、個々のグリフ間のスペースを調整することを指します。より視覚的に魅力的なテキストを作成するために使用されます。
キー(Key)
- 辞書キー:辞書で使用されるキー-バリューペアの一意の識別子。
- 暗号キー:メッセージを暗号化または復号化するために使用されるキー。
リニアライズドPDF(Linearized PDF)
リニアライズドPDFは、文書がストリーミングされているときに、より効率的なページ読み込みを可能にするように整理されたPDFです。必要なものがファイルの先頭にあるように、オブジェクトが再配置されます。
可逆圧縮(Lossless)
可逆圧縮を使用すると、データは解凍時に完全に再現できます。
不可逆圧縮(Lossy)
不可逆圧縮を使用すると、データは解凍時におおよそ再現されます。これは、圧縮サイズ、速度、品質のトレードオフです。不可逆圧縮は、主に音声、ビデオ、画像で使用されます。
LZW
Lempel-Ziv-Welchは、GIF画像で一般的に使用される可逆圧縮アルゴリズムです。
メタデータ(Metadata)
メタデータは、他のデータに関する情報を提供するデータです。
名前オブジェクト(Name object)
名前オブジェクトは、スラッシュ(/)に続く一連の文字で表されるシンボルです。
ネームツリー(Name tree)
ネームツリーは、すべてのキーが文字列であり、順序付けられているという点で、辞書に似ています。
ヌルオブジェクト(Null object)
ヌルオブジェクトは値を持たず、キーワードnullで表されます。
ナンバーツリー(Number tree)
ナンバーツリーは、すべてのキーが整数であり、順序付けられているという点で、辞書に似ています。
数値オブジェクト(Numeric object)
数値オブジェクトは、整数オブジェクトまたは実数オブジェクトのいずれかです。
オブジェクト(Object)
オブジェクトは、PDFファイル内で情報を表すために使用される基本的なデータ構造です。オブジェクトは、配列、ブール、辞書、整数、名前、ヌル、実数、ストリーム、文字列のいずれかです。COS構文を使用して記述されます。
オブジェクト番号(Object number)
オブジェクト番号は、PDFファイル内の各オブジェクトに一意に割り当てられたゼロより大きい整数です。任意の順序であっても構いませんが、重複があってはなりません。
オブジェクト識別子(Object identifier)
オブジェクト識別子(オブジェクト参照とも呼ばれる)は、オブジェクト番号と世代番号で構成され、Rまたはobjが続きます。
OCR
光学文字認識は、手書きまたは印刷されたテキストを機械可読なテキストに変換するプロセスです。
オペレータ(Operator)
PostScriptオペレータは、PDFファイル内のストリームで使用され、コンテンツをレンダリングするための指示です。
OpenType
OpenTypeフォントは、MicrosoftとAdobeによって共同開発され、TrueTypeフォントから派生しています。OpenTypeフォントは、TrueTypeとPostScriptの両方のフォントデータをサポートしています。
アウトライン(Outline)
PDF文書のアウトラインには、ページやセクションの構造が含まれ、目次のようにナビゲートに使用できます。
Portable Document Formatは、デバイスに関係なく文書を一貫して表示するために設計されたファイル形式です。
PDF Association
PDF Associationは、PDFファイル形式をサポートし、開発するオープンな業界団体です。興味のある企業や個人は参加して貢献できます。
PDFプロセッサー(PDF Processor)
PDFプロセッサーは、PDF仕様に準拠しながら、PDFファイルを読み書きできるソフトウェアです。JavaでPDFを処理する一般的なライブラリには、Apache PDFBoxやiTextなどがあります。
PDFバージョン(PDF version)
PDF仕様の異なるバージョンが利用可能で、新しいものほど洗練され、最新の機能が含まれています。
PDF/A
PDF/Aは、長期的な文書保存と最大数のデバイスでの互換性のために設計された、PDF仕様の簡略化されたバージョンです。
PDF/E
PDF/Eは、3Dモデルの埋め込みをサポートするために設計された、エンジニアリング用途の形式です。
PDF/R
PDF/Rは、複数ページのラスタ画像を保存するために設計された形式です。
PDF/UA
PDF/UAは、アクセシビリティ技術と連携するために設計された形式です。
PDF/VT
PDF/VTは、PDF/Xの拡張で、バリアブルデータ印刷をサポートします。
PDF/X
PDF/Xは、グラフィックデザイナーや印刷業者によって一般的に使用される形式です。
PNG
Portable Network Graphicsは、インターネットで一般的に使用される可逆圧縮の画像形式です。
PostScript
PostScriptは、電子文書で使用されるページ記述言語です。PDFは、その簡略化されたバージョンに基づいています。
プリフライト(Preflight)
プリフライトは、PDF文書が指定された条件に準拠していること、および印刷生産の準備ができていることを確認するための検査を指します。
ラスター(Raster)
ラスターは、画像を表すための色データを含むセルのマトリックスです。
実数オブジェクト(Real object)
実数オブジェクトは、範囲と精度が限られた浮動小数点数です。
矩形(Rectangle)
矩形は、ページ上の位置やバウンディングボックスを記述する配列オブジェクトです。矩形の左下と右上の4つの数値を含みます。
墨消し(Redaction)
墨消しは、機密情報を公開せずに文書を公開できるように、文書の一部を検閲することです。
リソース辞書(Resource dictionary)
リソース名(例えば/Font)をそのオブジェクトと関連付けます。
本文テキスト(Running text)
本文テキストは、文書の本文内の主要なテキストです。
SHA
Secure Hash Algorithmは、パスワードを保護するために一般的に使用される暗号学的ハッシュ関数です。
署名ハンドラー(Signature handler)
署名ハンドラーは、デジタル署名の作成を実装するソフトウェアです。
sRGB
sRGBは、非常に一般的に使用される標準的な赤、緑、青のカラースペースです。
ストリームオブジェクト(Stream object)
ストリームオブジェクトは、辞書に続いてバイナリデータを含みます。
文字列(String)
文字列は、一連の文字です。
構造化テキスト(Structured text)
構造化テキストは、テキストのレイアウトがどのようになっているかについての追加情報を含みます。
タグ付きPDF(Tagged PDF)
タグ付きPDFファイルは、そのコンテンツがどのように構造化されているかに関する情報を含みます。
TIFF
Tag Image File Formatは、1つ以上の画像を保存できる形式です。
トレーラー(Trailer)
トレーラーは、PDFファイルの末尾にある辞書です。最大のオブジェクト参照、ドキュメントカタログ、情報メタデータオブジェクトなどが含まれます。
TrueTypeフォント
TrueTypeフォントは、AppleとMicrosoftによって設計され、AdobeのType 1フォントに対抗するものです。
Type 1フォント
PostScript Type 1フォントは、PDFファイルで最も一般的に使用されるフォントで、高品質の出力を生成し、テキストを容易に抽出できます。
Type 3フォント
PostScript Type 3フォントは、グリフが完全なPostScript言語によって定義されていますが、ヒンティングをサポートしておらず、PDFファイルではほとんど使用されません。
Unicode
Unicodeは、ユニバーサル文字集合にマップされる一連の文字エンコーディングを指します。
非構造化テキスト(Unstructured text)
非構造化テキストは、そのレイアウトにモデルや構造がなく、単にテキストです。
UTF-8
Unicode Transformation Format-8は、最も一般的に使用される文字エンコーディングであり、ASCIIと互換性があります。
ベクター(Vector)
ベクターは、方向と大きさなどの2つの次元を持つ量です。補足:PDFの文脈では、ベクターは数式を使用して画像を表現するベクターグラフィックスを指し、拡大・縮小しても品質が劣化しません。
WebP
WebPは、Googleによって作成された画像形式です。
空白文字(Whitespace character)
空白文字は、印刷されないがテキスト内で意味を持つ文字を指します。これは、スペース、タブ、改行などです。
XFA
XML Forms Architectureは、PDF 1.5で導入されましたが、PDF 2.0で廃止されました。
XFDF
XFDFは、FDFファイル形式と非常によく似ていますが、データがXMLとして表現されます。
XML
Extensible Markup Languageは、任意のデータを格納するためのファイル形式であり、その構文はHTMLに似ています。
XMP
Extensible Metadata Platformは、ファイルに関する情報を格納するXMLベースのメタデータ形式です。
XObject
XObjectは、一連のグラフィックスオブジェクトのコンテナです。
Z-Index
Z-Indexは、重なり合う要素の順序を指します。PDFでは、後に描画された要素が前面に表示されます。
参考文献
- ISO 32000-2:2020-12 PDF 2.0仕様書
- PDF Association PDF用語集
このPDF文書は構造化テキストのコンテンツを含んでいますか?
それはファイルによって異なります。PDFには、ページ構造に関する情報を含む構造化PDFファイル(タグ付きPDF)と、構造情報を含まず、内容がどのような順序であっても構わない非構造化PDFファイルがあります。これはPDFが作成される際に行われ、 構造化されていない PDFファイルを構造化されたPDFファイルに変換することはできません。PDF ファイルに構造化コンテンツが含まれているかどうかは、Adobe Reader でファイルを開き、[ドキュメント プロパティ
JDELI – 幅広い画像フォーマットを読み書きするJava SDK
Javaでイメージファイルを安全に扱うJDeliは、HEICやその他のイメージファイル形式をJavaで簡単に読み書き、変換、操作、処理できるようにするJava SDKです。HEIC画像の読み出し/書き込みJDeliは、開発者にHEIC画像フォーマットの包括的なサポートを提供します。また、JPEG/JPEG2000、PNG、TIFFファイルを含む他の画像フォーマットのサポートも強化されています重要なファイルを安全に保管
