(その後、個別ではなく、一覧を取得したい場合はhttp://www.nasdaq.com/screening/companies-by-industry.aspx?exchange=NASDAQ をスクレイピングすればよいことがわかりました。このページが一番相手のサーバ様に負荷をかけずによいと思いました。)。

(3)しかし、このNASDAQのページで得られるオフィシャルサイトのURLは既に古くなっている場合があるので注意が必要でした。

例えば、Pacific Biosciences of California, Inc.(PACB) のページ(http://www.nasdaq.com/aspx/infoquotes.aspx?symbol=PACB)によるとオフィシャルサイトは

http://www.pacificbiosciences.com/　です。しかし実際にアクセスしてみるとわかりますが、そのサイトは既に http://www.pacb.com/ へ移転しています。このサイト移転に関しては、結局私のクローラが移転を検出して更新してやる必要がありました。保守運用がんばろうよNASDAQ…

また、例えばBarclays というイギリスの銀行が扱ってるETNという金融商品（TAPR, STPP, CAPE、その他）の公式サイトは、私は

http://etn.barclays.com/US/7/en/home.app　が適切だと思うのですけれども、全部

http://www.barclays.com/ に統一してしまっているのもどうかと思いました。リンク切れを避けたいのでしょうし、最終的にTickerSymbolと公式サイトが1:1対応出来ないということも理解しますけれども、ここもっと完成度高めて欲しいですねー。

(4)さて、こうして得られた全銘柄のサイトを FinalScraperにかけてRSSを作ってみました。しかし、残念ながら現時点ではかなりうまくゆかないことがわかりました。

(失敗原因1)　IPアドレスを元に表示される言語が決められてしまう。

たとえば、Qiagen N.V. (QGEN)のオフィシャルサイトhttp://www.qiagen.com/ は

日本のIPアドレスからのアクセスと判断すると自動的にhttps://www.qiagen.com/jp/ に

リダイレクトして、日本語のコンテンツが表示してしまいます。日本でクロールしているところの私のサーバは日本語のコンテンツしかダウンロードできません（ブラウザの言語設定をいじっても無理）。大人の事情なのか、特に医薬系の企業に多いようです。

(失敗原因2)

NASDAQってアメリカにあるんだから、オフィシャルサイトは英語だろうというそもそもの見込みが甘かったようです。トップページが中国語だったりヨーロッパ系の言語なサイトが沢山あります。http://www.hogehoge.comが、期待する言語英語でなかったとき、私達人類はサイト中の適当なリンクをクリックしたり検索エンジンで検索し直すなどして、http://www.hogehoge-holdings.com/english/ にたどり着くことが出来るのですが、現状で私のクローラにそんな機能はありません。

URLも標準化されていません。例えば中国のIT企業China Information Technology, Inc. のトップページhttp://www.chinacnit.com/ は中国語です。英語のページは、http://www.enchinait.com/en/でも、http://www.enchinait.com/lang=enでもなく、http://en.chinacnit.com/ です。このURLも人間がウェブブラウザでクリックしてやらないと知ることが出来ません。

特定の企業をやサイトを批判する意図は一切ありません。サイトごとに作りがバラバラで、機械はウェブサイトの目的のページに辿りつけないよねという主張をしています。

まぁ待てと。(失敗原因1)はなんとかなるだろと。例えば北米のVPSなりAWSなり借りれば解決できるはず。 takurosさんが書かれた記事

AWS Lambda+PhantomJS/CasperJSでスクレイピング - プログラマになりたい

を使えばLamdaでPhantomJSまで動くそうじゃないか。

しかし、(失敗原因2) は…もし得られたページの内容が目的の言語でなかった時、どうやって探せばいいのか。

トップページから目的の言語のページにたどりつくまで、depth=1くらいでクロールすれば良いのか？

しかしそのページは本当に同じ企業の英語版トップページなのか？企業によっては、地域別、言語別に別ドメインになっているサイトもあるよ。

とまぁ、現在はこの辺りでジタバタしてます。言語の壁すら超えられないようではマシンリーダブルなんてとても無理。いずれなんとかします。

最後に宣伝です。

happyou.infoはお客様のご要望に応じた分野のサイトを網羅的にスクレイピングし、サイトの更新情報をお届けできます。個々の更新項目に自動的にタグを付けて分類しています。Web API形式でご利用いただけます。詳しくは

https://happyou.info/ja/top/

をご参照ください。

2015-10-15

FinalScraperの現状と今後

FinalScraperを発表してから１ヶ月位たったのでまとめておこうと思う。

動作はかなり安定していると思う。
サービスを公開した本来の目的であるところの、「正しく検出できないパターンについてユーザさんにクレームを付けてもらう」が全く達成できていない。皆黙って使うだけ。うまく動かなければ黙って立ち去るだけ。どうにかならないか。
日本語URLがうまく処理できないようだ。直そう。例) http://www.fsight.jp/subcategory/無料　エンコードされていないURLが投げられた場合の処理。%E7%84%A1%E6%96%99
そのサイトが元々RSSフィードを出力している場合、「元々そのサイトはこのRSSを出力していますよ」と結果表示に含めるべき。
サーバの負荷が増えてきたらログイン必須にして上限を設ければ良い。

2015-10-01

9/29日から発生していた障害についてのメモ

9/29日から上場企業と地方自治体のRSSフィードが更新できていませんでした。現在は修復されました。APIやFinalScraperに問題は発生していませんでした。

非公開のWebサーバに大量のリクエストがあり、エラーログによりディスクが100%消費されてしまったことが障害の理由かと思われます。

約2日間も落ちたことに気づかなかった点は反省。今後はエラーログを監視するスクリプトを入れることにします。

2015-09-16

あらゆるウェブページをRSSに変換するサービスを公開しました

Final ScraperはRSSを出力しないウェブページをパターン解析し、RSSフィードを出力するサービスです。ようやく安定して動作するようになりましたのでリリースしました。ご利用は無料です。

Happyou Final Scraper

同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。

以下の制限事項がございます。

大量のエントリーはブロックさせていただくことがございます。ご希望の場合は別途お問い合わせ下さい。
ログインが必要なページはダウンロードすることが出来ません。
通信先のウェブサイトの設定によってはダウンロード出来ない場合がございます。お相手のウェブサイト様が望まないことは出来ません。
現在、4時間に一度のアクセスを行っています。最大4時間の遅れが生じることがあります。
生成されたRSSフィードに長期間アクセスのない場合は削除されます。アクセスできなくなった場合は再びトップページから生成を行って下さい。
ウェブページのデザインや構造が変化した場合、RSSフィードが生成できなくなることがございます。RSSフィードの中にそのようなエラーメッセージが表示されている場合には、トップページからもう一度やり直して下さい。

happyou.infoのクローラはこのFinal Scraperを利用して更新情報を収集しています。

happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。岡本将吾が運営しています。twitterは @happyou_info_ja です。

最近気になったウェブサイト

クローラの不具合が直る

サーバを増強しAPIの検索機能が軽くなりました。

NASDAQ全銘柄のウェブサイトをスクレイピングする計画

FinalScraperの現状と今後

9/29日から発生していた障害についてのメモ

あらゆるウェブページをRSSに変換するサービスを公開しました