読者です 読者をやめる 読者になる 読者になる

happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

やはり普及してはならないアンチスクレイピングサービス

この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日はL_e_k_oさんによるSelenium IDEで作ったテストをCLIで動かす方法でした。 さて、去年のspaceprobeさんのこの記事を読んで考えました。 qiita.com 地図…

中華人民共和国大使館のスクレイピング

この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。 昨日の記事は、anoChick さんによる AWS上にサーバレスな汎用クローラを展開するぞ。 - あのにのに でした。 -- happyou.infoでは、中国政府のサイトをスク…

髙見澤將林 前内閣官房副長官補「変わるアメリカ・変わらないアメリカ 米大統領選」(15) 2016.11.16

www.youtube.com 非常に勉強になったためブログに残そうと思います。 日本の官僚は凄いですね…

Wikitable

Wikitables - Convert Wikipedia tables to CSV file URLを入力すると、Wikipediaのページにあるテーブルの内容をCSVファイルに変換する。 1つのarticleに1テーブルが存在する場合は綺麗にデータが取れる。e.g. Parsed tables from https://simple.wikipedia…

FinalScraperを高速化しました

FinalScraperをアップデートしました。 以前よりも高速にRSSフィードが生成されるようになりました。 その他の変更点はありません。 久しぶりに自分で使ってみたら、いつまでたってもフィードが生成されず、あまりの遅さにびっくりしたためです。 FinalScrap…

最近気になったウェブサイト

giji.rocks thebridge.jp business.nikkeibp.co.jp でも、実際のサイトをみると、あれ?まだ?感がある。

クローラの不具合が直る

本当に長い間調査をし続けて、ようやくhappyouのクローラの不具合が治ったことを記念し、久しぶりにブログを書く。 今後、happyouをスケールアウトさせることを考えたとき、今のボトルネックは明らかにDB.細かな最適化をおこなったところで多寡が知れている…

サーバを増強しAPIの検索機能が軽くなりました。

happyou.infoは現在、クロールの規模を拡大するための諸々の作業を行っています。 そのためにまずAPIの検索を担当するサーバの増強を行いました。かなり軽くなりました(まぁ、これまでなぜここまで負荷をかけていたのかという問題があったのですが…)。 ず…

NASDAQ全銘柄のウェブサイトをスクレイピングする計画

この記事は クローラー/Webスクレイピング Advent Calendar 2015 の15日目の記事です。 昨日の記事は dimgraycatさんによる とりあえずPHPでWebスクレイピングしてみたい人向けパッケージ - Qiita でした。 happyou.infoというサイトを開発している@shogook…

FinalScraperの現状と今後

FinalScraperを発表してから1ヶ月位たったのでまとめておこうと思う。 動作はかなり安定していると思う。 サービスを公開した本来の目的であるところの、「正しく検出できないパターンについてユーザさんにクレームを付けてもらう」が全く達成できていない…

9/29日から発生していた障害についてのメモ

9/29日から上場企業と地方自治体のRSSフィードが更新できていませんでした。現在は修復されました。APIやFinalScraperに問題は発生していませんでした。 非公開のWebサーバに大量のリクエストがあり、エラーログによりディスクが100%消費されてしまったこと…

あらゆるウェブページをRSSに変換するサービスを公開しました

Final ScraperはRSSを出力しないウェブページをパターン解析し、RSSフィードを出力するサービスです。 ようやく安定して動作するようになりましたのでリリースしました。ご利用は無料です。 Happyou Final Scraper 同様のサービスは他にも存在しますが、Fina…

すべての上場企業のと地方自治体のサイトをスクレイピングして大変だったことを書きます(移転)

書いたんですけど、テクニカルな記事だったし、あまり反応もなかったので、Qiitaというサイトに移転しました。 qiita.com

全上場企業と全地方自治体のRSSを出力することに成功しました

happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。 happyou.infoのトップページ Final ScraperFinal Scraper はHTMLページのパターン解析を行い…

普及して欲しくないアンチスクレイピングサービス

スクレイピングとは、ウェブページから情報を取り出す処理を指します。そのためのプログラムやツールが存在します。 さて、ここで立場を変えて、情報を取り出されてしまうウェブサイト側の立場になって考えてみますと、スクレイピングはあまりうれしくない存…

happyou.info - はじまりのことば

ザイソフト 岡本将吾と申します。 happyou.infoというウェブサイトを開発しています。 happyou.infoは、現在、 官公庁と上場企業のウェブサイト合計約7000件のサイトを巡回し、更新されたニュースを収集しています。RSSフィードを生成していないサイトに関し…