happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

2015-01-01から1年間の記事一覧

NASDAQ全銘柄のウェブサイトをスクレイピングする計画

この記事は クローラー/Webスクレイピング Advent Calendar 2015 の15日目の記事です。 昨日の記事は dimgraycatさんによる とりあえずPHPでWebスクレイピングしてみたい人向けパッケージ - Qiita でした。 happyou.infoというサイトを開発している@shogook…

FinalScraperの現状と今後

FinalScraperを発表してから1ヶ月位たったのでまとめておこうと思う。 動作はかなり安定していると思う。 サービスを公開した本来の目的であるところの、「正しく検出できないパターンについてユーザさんにクレームを付けてもらう」が全く達成できていない…

9/29日から発生していた障害についてのメモ

9/29日から上場企業と地方自治体のRSSフィードが更新できていませんでした。現在は修復されました。APIやFinalScraperに問題は発生していませんでした。 非公開のWebサーバに大量のリクエストがあり、エラーログによりディスクが100%消費されてしまったこと…

あらゆるウェブページをRSSに変換するサービスを公開しました

Final ScraperはRSSを出力しないウェブページをパターン解析し、RSSフィードを出力するサービスです。 ようやく安定して動作するようになりましたのでリリースしました。ご利用は無料です。 Happyou Final Scraper 同様のサービスは他にも存在しますが、Fina…

すべての上場企業のと地方自治体のサイトをスクレイピングして大変だったことを書きます(移転)

書いたんですけど、テクニカルな記事だったし、あまり反応もなかったので、Qiitaというサイトに移転しました。 qiita.com

全上場企業と全地方自治体のRSSを出力することに成功しました

happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。 happyou.infoのトップページ Final ScraperFinal Scraper はHTMLページのパターン解析を行い…