マシンリーダブルな形式に変換するツール/サービス各種
HTML
import.io magicという、一部自動的にデータを抽出する機能があったのだが、見えなくなってしまった。 www.import.io
dexi,io dexi.io マニュアル
Diffbot www.diffbot.com URLと、ページの構造の種類(記事リスト、商品リスト、ビデオ)を指定すると構造を分析してJSONを出力
Apify www.apify.com
DATAFINITI Datafiniti | Intelligent Web Data for Data-Driven Businesses 企業/人物/製品/不動産のリスト
PhantomBuster https://phantombuster.com/ 各種ウェブサービスのデータ変換
PromptCloud www.promptcloud.com major ecommerce, travel and job portals
ウェブ系は他にもいくつもあるが、ツール系はの場合は、だいたいマニュアルで人間がスクレイピングする箇所を指定 しなければならず、近年進歩がないように思う。
PDF tabula PDF中にの表データを抽出しCSV形式に変換するOSS(Java) github.com
Camelot PDF中にの表データを抽出しCSV形式に変換するOSS(Python) tabulaとの違いは、マニュアルで抽出条件を指定することが指定可能な点 camelot-py.readthedocs.io
画像 Amazon Textract 文書となる画像に含まれている表形式の文書からデータを抽出するサービス いつ頃使えるんだろう? aws.amazon.com
ELIS インボイスのような書類をデータ化するサービス。サンプルの書類と、抽出されたデータの項目名 が異なっているところに注目した(自動的にマッピングが行われているよう)。 rossum.ai
スマートOCR www.smartocr.jp