サーバを増強しAPIの検索機能が軽くなりました。
happyou.infoは現在、クロールの規模を拡大するための諸々の作業を行っています。
そのためにまずAPIの検索を担当するサーバの増強を行いました。かなり軽くなりました(まぁ、これまでなぜここまで負荷をかけていたのかという問題があったのですが…)。 ずっと懸案であったので一つ荷が降りた気持ちです。
NASDAQ全銘柄のウェブサイトをスクレイピングする計画
FinalScraperの現状と今後
FinalScraperを発表してから1ヶ月位たったのでまとめておこうと思う。
- 動作はかなり安定していると思う。
- サービスを公開した本来の目的であるところの、「正しく検出できないパターンについてユーザさんにクレームを付けてもらう」が全く達成できていない。皆黙って使うだけ。うまく動かなければ黙って立ち去るだけ。どうにかならないか。
- 日本語URLがうまく処理できないようだ。直そう。例) http://www.fsight.jp/subcategory/無料 エンコードされていないURLが投げられた場合の処理。%E7%84%A1%E6%96%99
- そのサイトが元々RSSフィードを出力している場合、「元々そのサイトはこのRSSを出力していますよ」と結果表示に含めるべき。
- サーバの負荷が増えてきたらログイン必須にして上限を設ければ良い。
9/29日から発生していた障害についてのメモ
9/29日から上場企業と地方自治体のRSSフィードが更新できていませんでした。現在は修復されました。APIやFinalScraperに問題は発生していませんでした。
非公開のWebサーバに大量のリクエストがあり、エラーログによりディスクが100%消費されてしまったことが障害の理由かと思われます。
約2日間も落ちたことに気づかなかった点は反省。今後はエラーログを監視するスクリプトを入れることにします。
あらゆるウェブページをRSSに変換するサービスを公開しました
Final ScraperはRSSを出力しないウェブページをパターン解析し、RSSフィードを出力するサービスです。 ようやく安定して動作するようになりましたのでリリースしました。ご利用は無料です。
同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。
以下の制限事項がございます。
- 大量のエントリーはブロックさせていただくことがございます。ご希望の場合は別途お問い合わせ下さい。
- ログインが必要なページはダウンロードすることが出来ません。
- 通信先のウェブサイトの設定によってはダウンロード出来ない場合がございます。お相手のウェブサイト様が望まないことは出来ません。
- 現在、4時間に一度のアクセスを行っています。最大4時間の遅れが生じることがあります。
- 生成されたRSSフィードに長期間アクセスのない場合は削除されます。アクセスできなくなった場合は再びトップページから生成を行って下さい。
- ウェブページのデザインや構造が変化した場合、RSSフィードが生成できなくなることがございます。RSSフィードの中にそのようなエラーメッセージが表示されている場合には、トップページからもう一度やり直して下さい。
happyou.infoのクローラはこのFinal Scraperを利用して更新情報を収集しています。
全上場企業と全地方自治体のRSSを出力することに成功しました
happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。
Final Scraper
Final Scraper はHTMLページのパターン解析を行い高品質のRSSフィードを作成します。
同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。
FinalScraperを利用して、上場企業と地方自治体のサイトからフィードを作成して公開しました。
すべての上場企業 (2022年現在、公開を止めています)
すべての地方自治体(2022年現在、公開を止めています)
happyou API
FinalScraperは自動で動作し人間による操作が不要であるため、クローラに組み込んで利用することが出来ます。
これにより、大量のウェブサイトから自動的に更新情報を検出することが可能になりました。
しかし機械的に抽出した更新情報は量も多くニュースと呼ぶに値しない情報も多いため(*2)、全ての更新を直接でRSSリーダを使って読むには適しません。
そこで個々の更新情報にタグをつけ、Web API経由の検索を行うことで必要な項目だけを読みだせるようにしました。 happyou APIで検索することも可能ですし、IFTTTやzapierといった外部のサービスを利用することでフィルタリングされた更新情報をモバイル端末にプッシュ通知させることも可能です。
今後
お客様がご希望されるどのような分野にも対応できます。 医療、介護、公共事業入札、自動車部品業界、建築資材業界、どの業種でも約150万サイトの中から更新情報を分類してお届けすることが出来ます。
お客様のサイト内に表示させることも、モバイルアプリに組み込む形でご利用いただくことも可能です。
クロール対象サイトをお客様の側でご指定いただくことも可能です。
お気軽にご相談ください。
https://happyou.info/ja/top/#customize
以上となります。最後までお読みいただきありがとうございました。
(*1)数字は2015/09/14現在
(*2)例えば、上場企業のインベスター・リレーションズが興味の対象の人にとって、B2C企業の「今なら花柄のお皿プレゼント」といった情報はノイズになります。