2016-01-01から1年間の記事一覧
この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日はL_e_k_oさんによるSelenium IDEで作ったテストをCLIで動かす方法でした。 さて、去年のspaceprobeさんのこの記事を読んで考えました。 qiita.com 地図…
この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。 昨日の記事は、anoChick さんによる AWS上にサーバレスな汎用クローラを展開するぞ。 - あのにのに でした。 -- happyou.infoでは、中国政府のサイトをスク…
www.youtube.com 非常に勉強になったためブログに残そうと思います。 日本の官僚は凄いですね…
Wikitables - Convert Wikipedia tables to CSV file URLを入力すると、Wikipediaのページにあるテーブルの内容をCSVファイルに変換する。 1つのarticleに1テーブルが存在する場合は綺麗にデータが取れる。e.g. Parsed tables from https://simple.wikipedia…
FinalScraperをアップデートしました。 以前よりも高速にRSSフィードが生成されるようになりました。 その他の変更点はありません。 久しぶりに自分で使ってみたら、いつまでたってもフィードが生成されず、あまりの遅さにびっくりしたためです。 FinalScrap…
giji.rocks thebridge.jp business.nikkeibp.co.jp でも、実際のサイトをみると、あれ?まだ?感がある。
本当に長い間調査をし続けて、ようやくhappyouのクローラの不具合が治ったことを記念し、久しぶりにブログを書く。 今後、happyouをスケールアウトさせることを考えたとき、今のボトルネックは明らかにDB.細かな最適化をおこなったところで多寡が知れている…
happyou.infoは現在、クロールの規模を拡大するための諸々の作業を行っています。 そのためにまずAPIの検索を担当するサーバの増強を行いました。かなり軽くなりました(まぁ、これまでなぜここまで負荷をかけていたのかという問題があったのですが…)。 ず…