happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

マシンリーダブルな形式に変換するツール/サービス各種

HTML

import.io magicという、一部自動的にデータを抽出する機能があったのだが、見えなくなってしまった。 www.import.io

dexi,io dexi.io マニュアル

Diffbot www.diffbot.com URLと、ページの構造の種類(記事リスト、商品リスト、ビデオ)を指定すると構造を分析してJSONを出力

Apify www.apify.com

DATAFINITI Datafiniti | Intelligent Web Data for Data-Driven Businesses 企業/人物/製品/不動産のリスト

PhantomBuster https://phantombuster.com/ 各種ウェブサービスのデータ変換

PromptCloud www.promptcloud.com major ecommerce, travel and job portals

ウェブ系は他にもいくつもあるが、ツール系はの場合は、だいたいマニュアルで人間がスクレイピングする箇所を指定 しなければならず、近年進歩がないように思う。

PDF tabula PDF中にの表データを抽出しCSV形式に変換するOSS(Java) github.com

Camelot PDF中にの表データを抽出しCSV形式に変換するOSS(Python) tabulaとの違いは、マニュアルで抽出条件を指定することが指定可能な点 camelot-py.readthedocs.io

画像 Amazon Textract 文書となる画像に含まれている表形式の文書からデータを抽出するサービス いつ頃使えるんだろう? aws.amazon.com

ELIS インボイスのような書類をデータ化するサービス。サンプルの書類と、抽出されたデータの項目名 が異なっているところに注目した(自動的にマッピングが行われているよう)。 rossum.ai

スマートOCR www.smartocr.jp