これまでクローラはCentOS6.5で動作させていたのですが、CentOS7.4での動作に更新しました。クロールに用いるウェブブラウザはPhantomJSとSWTの利用を止めてGoogleChrome headlessモードとFirefoxに統一しました。 AdobeFlashの対応があるため、Firefoxは必要です。

APIサーバはCentOS6.5のままなので、いずれ更新を行わなければなりません。

現在FinalScraper2を開発しています。うまくゆくかどうかはわかりません。

2016-12-22

やはり普及してはならないアンチスクレイピングサービス

この記事は、クローラー／Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日はL_e_k_oさんによるSelenium IDEで作ったテストをCLIで動かす方法でした。

さて、去年のspaceprobeさんのこの記事を読んで考えました。

qiita.com

地図帳や百科事典には、他社にコピーされたことを判別できるように、実用上は問題のない偽データ(たどり着くことの出来ない道路や存在しない言葉など)が埋め込まれているというのは有名な話です。

https://ja.wikipedia.org/wiki/%E8%99%9A%E6%A7%8B%E8%A8%98%E4%BA%8B

https://en.wikipedia.org/wiki/Fictitious_entry

少し角度は違いますが、Tim Berners-Lee先生も「オープンデータも悪い人に加工されて不正確になったらマズいよね」とおっしゃっています。

https://www.theguardian.com/technology/2016/nov/01/tim-berners-lee-warns-danger-of-chaos-unprotected-public-open-data?CMP=share_btn_tw

以下に単純化したHTMLページを書きます。

sample.html

sample.css

.cls3 {

display:none;

}

cls3のページにアクセスした人は人間じゃないbot(*1). この製品3にアクセスした人には、次のページからところどころ価格を2割あげたデータを提示したり、電話番号を1ずらして表示すればいいんですね? それにそもそも製品3なんて世の中に実在しないんだけど、あなたそのデータどこから持ってきました?

(*1)今回はかなり話を単純化しています。実際にこれをやったら危険。

スクレイピングの需要が高まっているようです。気がつくと関連の書籍も色々出版されています。データの収集がカジュアル化するにつれ、「ウチのデータは顧客と潜在的顧客に提供しているのであって、同業他社さんにごっそりコピーされたくない」という需要が高まってくるはずです。

自社のウェブサイトをヒューマンリーダブルだけどマシンリーダブルにはしない。一般のユーザさんには影響がない程度の毒を自社サイトに混ぜることでコピーされるのを防ぐ、機械お断りというオープンデータとは真逆の流れが生まれてくるはずです。

この流れは強くなってほしくないですねー。メジャーなCMS向けにアンチスクレイピングプラグインとか、そういうのはリリースされないで欲しいです。予想外れてほしいです!

私は、私が2年前に書いたHTMLの構造を常に変化させる方法のほうがまだ良心的のように思えてきました。

happyou-info.hatenablog.com

このサービスは、私がアンチスクレイピングと認識しているものをhtml obfuscationと呼んでいるようです。価格表示だけ別サーバは大胆。色々あわせ技凄い。なるほど。

www.lokad.com

2016-12-13

中華人民共和国大使館のスクレイピング

この記事は、クローラー／Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日の記事は、anoChick さんによる AWS上にサーバレスな汎用クローラを展開するぞ。 - あのにのにでした。

happyou.infoでは、中国政府のサイトをスクレイピングしています。

今回はその中でも中国政府の大使館や領事館のウェブサイトの更新情報を検出しRSS化しましたので公開したいと思います。

Q: なぜ中国大使館のスクレイピングを行うのか?

1.意味があるため

中国政府が対外的に発信する情報を網羅的に収集することには社会的に意味があると考えらるため。

2．ウェブサイトがマシンリーダブルでないため

中国政府のウェブサイトはマシンリーダブルでないため。RSSはなく、TwitterやFacebookの利用も体系的には行われていないため。

3.happyou.infoが得意な分野であるため

たとえば、日本の東京にある中国大使館のサイトは、アメリカのワシントンにある中国大使館のサイトとはデザインが異なります。イタリアの大使館サイトはまた別のデザインです。

中華人民共和国駐日本国大使館

Embassy of the People's Republic of China in the United States of America

中华人民共和国驻意大利共和国大使馆

このようなサイトが言語別にわけると約500近くあります。これらのサイトを手作業でスクレイピングするのは大変ですが、happyou.infoは全て自動で収集することが出来るためです。*1

---

これが入力元のサイト一覧です。

Missions Overseas

そして、これが現時点でのスクレイピングの結果です。

All Chinese embassies and consulates

諸事情により中国語、英語、日本語以外の言語については生成していません。
更新の半分くらいは中国の外交部(日本の外務省に相当する)のプレスリリースがそのまま書き写されています。中国本国のリリースを中国語と現地の公用語で発信しているコピペです。
残りは2国間関係のニュース、大使の講演や発言、中国関連のイベントの告知など。
継続して収集しているのでわかるのですが、2016年の7月あたりを最後に、南シナ海に関する情報発信を発信を止めちゃったようです。
在北朝鮮大使館の英語版のサイトの更新が止まっていて物悲しい。私は読めないけれど韓国語版も止まってる。仕事しろ同盟国じゃろ…

一つ一つのニュースはあまり面白くなく、とても意味があるとは思えません。しかしこれらを蓄積して分類しアーカイブ化すると価値が生まれることを知っています。

中国政府のスクレイピングで、クローラの多言語化にかなり対応できたのではないかと考えています。今回の成果をもとに去年失敗したNASDAQ全銘柄スクレイピングにもう一度挑戦してみるつもりです。

以上です。

*1:少なくとも民間レベルでは他に存在しないと考えています。