happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

最近の開発(表のパースについて)

ブログをずっと更新していなかったので、最近について書きます。

引き続きHTML/PDF中のテーブルをパースするfs2の開発を続けています。 テーブルのOCRについては以下のようなサービスやライブラリがあることを認識しています。どれも機能や品質、価格に一長一短があり、 やはりfs2を作らなければいけないと気持ちを強くしています。

tabula-java camelot AWS Textract Microsoft Azure Form recognizer Cascade tabnet PDF to Excel or CSV (https://www.sejda.com/pdf-to-excel) Kaptiche https://www.sensiple.com/kaptiche Kanverse https://www.kanverse.ai/intelligent-document-processing IBM Watson Table Understanding https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-understanding_tables Google Document AI https://cloud.google.com/solutions/document-ai