happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

2016-01-01から1年間の記事一覧

やはり普及してはならないアンチスクレイピングサービス

この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日はL_e_k_oさんによるSelenium IDEで作ったテストをCLIで動かす方法でした。 さて、去年のspaceprobeさんのこの記事を読んで考えました。 qiita.com 地図…

中華人民共和国大使館のスクレイピング

この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。 昨日の記事は、anoChick さんによる AWS上にサーバレスな汎用クローラを展開するぞ。 - あのにのに でした。 -- happyou.infoでは、中国政府のサイトをスク…

髙見澤將林 前内閣官房副長官補「変わるアメリカ・変わらないアメリカ 米大統領選」(15) 2016.11.16

www.youtube.com 非常に勉強になったためブログに残そうと思います。 日本の官僚は凄いですね…

Wikitable

Wikitables - Convert Wikipedia tables to CSV file URLを入力すると、Wikipediaのページにあるテーブルの内容をCSVファイルに変換する。 1つのarticleに1テーブルが存在する場合は綺麗にデータが取れる。e.g. Parsed tables from https://simple.wikipedia…

FinalScraperを高速化しました

FinalScraperをアップデートしました。 以前よりも高速にRSSフィードが生成されるようになりました。 その他の変更点はありません。 久しぶりに自分で使ってみたら、いつまでたってもフィードが生成されず、あまりの遅さにびっくりしたためです。 FinalScrap…

最近気になったウェブサイト

giji.rocks thebridge.jp business.nikkeibp.co.jp でも、実際のサイトをみると、あれ?まだ?感がある。

クローラの不具合が直る

本当に長い間調査をし続けて、ようやくhappyouのクローラの不具合が治ったことを記念し、久しぶりにブログを書く。 今後、happyouをスケールアウトさせることを考えたとき、今のボトルネックは明らかにDB.細かな最適化をおこなったところで多寡が知れている…

サーバを増強しAPIの検索機能が軽くなりました。

happyou.infoは現在、クロールの規模を拡大するための諸々の作業を行っています。 そのためにまずAPIの検索を担当するサーバの増強を行いました。かなり軽くなりました(まぁ、これまでなぜここまで負荷をかけていたのかという問題があったのですが…)。 ず…