テキスト抽出のアルゴリズムについて – MESCIUS ナレッジベース

作成日: 2022/01/21 最終更新日: 2022/01/21

使用方法

GetTextやGetTextMapなどのPDFからテキストを抽出する処理は、GcPdfDocument.RecognitionAlgorithmで指定したアルゴリズムを使用してPDF構造を解析します。

デフォルト値のAdvancedはPDFの論理ドキュメント構造を認識しようとする高度なアルゴリズムです。
視覚的なレイアウトの構造（テキストの位置関係など）を考慮することにより、PDFの表示を人間が目で見たときの情報に近い結果を得ることができます。

ただし、このアルゴリズムは継続的に改良されているため、DioDocsのバージョンを更新すると、テキストの抽出結果が変化する場合があります。

また、PDFの構造によっては、Acrobat Readerの表示とは異なる結果になる場合があります。

一方、AcrobatLikeはPDFの物理的構造に依存するアルゴリズムです。
こちらを使用した場合は、Acrobat Readerのテキスト選択や検索と一致する結果を得ることができます。
※視覚要素は考慮されないため、文章や表としては正しくない順番のテキストになる可能性があります。

基本的にはAdvancedの使用をお勧めしますが、バージョンアップでテキストの抽出結果が変化することを避けたい場合は、AcrobatLikeに変更することをご検討ください。