happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

全上場企業と全地方自治体のRSSを出力することに成功しました

happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。

happyou.infoのトップページ

 

Final Scraper

Final Scraper はHTMLページのパターン解析を行い高品質のRSSフィードを作成します。
同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。

Happyou Final Scraper


FinalScraperを利用して、上場企業と地方自治体のサイトからフィードを作成して公開しました。

すべての上場企業

すべての地方自治体


happyou API

FinalScraperは自動で動作し人間による操作が不要であるため、クローラに組み込んで利用することが出来ます。
これにより、大量のウェブサイトから自動的に更新情報を検出することが可能になりました。
しかし機械的に抽出した更新情報は量も多くニュースと呼ぶに値しない情報も多いため(*2)、全ての更新を直接でRSSリーダを使って読むには適しません。

そこで個々の更新情報にタグをつけ、Web API経由の検索を行うことで必要な項目だけを読みだせるようにしました。 happyou APIで検索することも可能ですし、IFTTTやzapierといった外部のサービスを利用することでフィルタリングされた更新情報をモバイル端末にプッシュ通知させることも可能です。

happyou API ver2

 

今後

お客様がご希望されるどのような分野にも対応できます。 医療、介護、公共事業入札、自動車部品業界、建築資材業界、どの業種でも約150万サイトの中から更新情報を分類してお届けすることが出来ます。

お客様のサイト内に表示させることも、モバイルアプリに組み込む形でご利用いただくことも可能です。
クロール対象サイトをお客様の側でご指定いただくことも可能です。
お気軽にご相談ください。

https://happyou.info/ja/top/#customize

 

以上となります。最後までお読みいただきありがとうございました。

(*1)数字は2015/09/14現在

(*2)例えば、上場企業のインベスター・リレーションズが興味の対象の人にとって、B2C企業の「今なら花柄のお皿プレゼント」といった情報はノイズになります。