AWS Textractについて調べた
AWS Textractは、PDFデータや画像データに含まれるフォーム形式のデータ、または、表形式のデータを読み取り、機械判読可能なデータに変換するサービスです。
2019年8月現在まだ日本語はサポートしていませんが、どのようなデータをパースできるのか実際に使ってみました。
条件
Excelで作成したデータをPDF形式で出力しAWS Textractにアップロードして認識させる。現実バージョンは、tabula-javaのテストに用いられているPDFデータをそのまま利用する。
- シンプルな表(罫線あり)
- シンプルな表(罫線一部のみ)
- シンプルな表(罫線なし)
- 複雑な表(罫線あり)
- 複雑な表(罫線一部のみ)
- 複雑な表(罫線なし→これはありえないのでパス)
- テキストの列挙
- 同じ構造の繰り返し
- 現実バージョン1
- 現実バージョン2
- 現実バージョン3
- 現実バージョン4
結果
(1) シンプルな表(罫線あり)
入力
出力
なし
評価: 表形式を認識できない。アラインメント(右寄せ)を調整してみたが認識できない。
(1-2) シンプルな表(罫線あり、大きなフォント)
入力:
出力:
評価:
大きなフォントに変換するとテーブルとテキストを認識する。
(2) シンプルな表(罫線一部のみ)
入力
出力
評価: 表形式は認識できたが、正しく文字を認識できない。”col" の半角小文字の"L"を罫線と認識してしまっている。
(3) シンプルな表(罫線なし)
入力
出力
評価: 罫線がなくなると正しく認識できた!罫線が苦手のよう。
(4) 複雑な表(罫線あり)
入力
出力
評価:罫線があっても、parent, 2018, 2019を除くとほぼ正しく抽出できている
(5) 複雑な表(罫線一部のみ)
入力
出力
評価:
4に比べて精度が落ちている。
(6) 複雑な表(罫線なし→これは現実的にありえないのでパス)
(7) テキストの列挙
入力
出力
評価:パーフェクト
case7_2
入力
出力
評価:パーフェクト
case7_3
入力
出力
評価: 文字が認識できなくなる。
(8) 同じ構造の繰り返し
入力
出力
評価:
そもそもこの同じ構造を繰り返す形式はサポートしていないよう
(9) 現実バージョン1
入力
出力
評価: 親子関係が死んでいる以外はパーフェクト。フォントによるのかな?
(10) 現実バージョン2
入力
出力
評価:
パーフェクト。2ページ目は表と認識しないのも正解。
(11) 現実バージョン3
入力
出力
評価
行が正しく認識できていない(odd行even行の色違いを認識しない)
- 現実バージョン4
入力
出力
評価:
4つのテーブルは認識しているが、行を認識できていない。
まとめ
- テーブルにはキー(ヘッダ)とバリューが存在するが、現時点でのバージョンでは何がキーで何がバリューかを認識できない。
- 一般的にPDFデータには文字情報が含まれているが、その文字情報は利用していないよう(もったいない)。飽くまで画像のOCR。
- 抽出できるかどうかはフォントに依存するよう。
- CSVを生成するところでミスが多い。
- 罫線が苦手のよう。