happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

最近のテーブルパーサ

引き続き表のスクレイピングを諦めない。 最近試したテーブルパーサ table-transformer GitHub - microsoft/table-transformer: Table Transformer (TATR) is a deep learning model for extracting tables from unstructured documents (PDFs and images). …

FinalScraper1のノイズ除去

FinalScraper1のHTMLからのRSS生成がかなり遅くなっていたようなので、 長期間アクセスのないRSSフィードや、長期間エラーが返ってきているページを削除しました。 現在RSSの遅延生成は徐々に回復しつつあります。

2022年

一度はあきらめましたが、引き続き表のパースをやっていきたいと思います。 PDFも画像もすべてやっていくぞ。

Adobe PDF Extract API を動かしてみた

だいたい久しぶりにブログを書いた。 この手のサービスでは一番性能が良いと思われる。 これはとても辛い判断ではあるけれども、独自の実装は諦めることにした。 どうやっても勝てそうにない。 qiita.com おそらくテーブル外のテキスト(タイトルや脚注)は…

最近の開発(表のパースについて)

ブログをずっと更新していなかったので、最近について書きます。 引き続きHTML/PDF中のテーブルをパースするfs2の開発を続けています。 テーブルのOCRについては以下のようなサービスやライブラリがあることを認識しています。どれも機能や品質、価格に一長…

AWS Textractについて調べた

AWS Textractは、PDFデータや画像データに含まれるフォーム形式のデータ、または、表形式のデータを読み取り、機械判読可能なデータに変換するサービスです。 aws.amazon.com 2019年8月現在まだ日本語はサポートしていませんが、どのようなデータをパースで…

happyou.infoの新元号対応完了

新元号令和に対応しました。 令和1/5/1 Wed May 01 00:00:00 JST 2019 [令和1/5/1] 令和01/5/1 Wed May 01 00:00:00 JST 2019 [令和01/5/1] R1.5.1 Wed May 01 00:00:00 JST 2019 [R1.5.1] R01.5.01 Wed May 01 00:00:00 JST 2019 [R01.5.01] 令和01年5月01…

マシンリーダブルな形式に変換するツール/サービス各種

HTML import.io magicという、一部自動的にデータを抽出する機能があったのだが、見えなくなってしまった。 www.import.io dexi,io dexi.io マニュアル Diffbot www.diffbot.com URLと、ページの構造の種類(記事リスト、商品リスト、ビデオ)を指定すると構造…

サーバを更新しました。

これまでクローラはCentOS6.5で動作させていたのですが、CentOS7.4での動作に更新しました。 クロールに用いるウェブブラウザはPhantomJSとSWTの利用を止めてGoogleChrome headlessモードとFirefoxに 統一しました。 AdobeFlashの対応があるため、Firefoxは…

やはり普及してはならないアンチスクレイピングサービス

この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日はL_e_k_oさんによるSelenium IDEで作ったテストをCLIで動かす方法でした。 さて、去年のspaceprobeさんのこの記事を読んで考えました。 qiita.com 地図…

中華人民共和国大使館のスクレイピング

この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。 昨日の記事は、anoChick さんによる AWS上にサーバレスな汎用クローラを展開するぞ。 - あのにのに でした。 -- happyou.infoでは、中国政府のサイトをスク…

髙見澤將林 前内閣官房副長官補「変わるアメリカ・変わらないアメリカ 米大統領選」(15) 2016.11.16

www.youtube.com 非常に勉強になったためブログに残そうと思います。 日本の官僚は凄いですね…

Wikitable

Wikitables - Convert Wikipedia tables to CSV file URLを入力すると、Wikipediaのページにあるテーブルの内容をCSVファイルに変換する。 1つのarticleに1テーブルが存在する場合は綺麗にデータが取れる。e.g. Parsed tables from https://simple.wikipedia…

FinalScraperを高速化しました

FinalScraperをアップデートしました。 以前よりも高速にRSSフィードが生成されるようになりました。 その他の変更点はありません。 久しぶりに自分で使ってみたら、いつまでたってもフィードが生成されず、あまりの遅さにびっくりしたためです。 FinalScrap…

最近気になったウェブサイト

giji.rocks thebridge.jp business.nikkeibp.co.jp でも、実際のサイトをみると、あれ?まだ?感がある。

クローラの不具合が直る

本当に長い間調査をし続けて、ようやくhappyouのクローラの不具合が治ったことを記念し、久しぶりにブログを書く。 今後、happyouをスケールアウトさせることを考えたとき、今のボトルネックは明らかにDB.細かな最適化をおこなったところで多寡が知れている…

サーバを増強しAPIの検索機能が軽くなりました。

happyou.infoは現在、クロールの規模を拡大するための諸々の作業を行っています。 そのためにまずAPIの検索を担当するサーバの増強を行いました。かなり軽くなりました(まぁ、これまでなぜここまで負荷をかけていたのかという問題があったのですが…)。 ず…

NASDAQ全銘柄のウェブサイトをスクレイピングする計画

この記事は クローラー/Webスクレイピング Advent Calendar 2015 の15日目の記事です。 昨日の記事は dimgraycatさんによる とりあえずPHPでWebスクレイピングしてみたい人向けパッケージ - Qiita でした。 happyou.infoというサイトを開発している@shogook…

FinalScraperの現状と今後

FinalScraperを発表してから1ヶ月位たったのでまとめておこうと思う。 動作はかなり安定していると思う。 サービスを公開した本来の目的であるところの、「正しく検出できないパターンについてユーザさんにクレームを付けてもらう」が全く達成できていない…

9/29日から発生していた障害についてのメモ

9/29日から上場企業と地方自治体のRSSフィードが更新できていませんでした。現在は修復されました。APIやFinalScraperに問題は発生していませんでした。 非公開のWebサーバに大量のリクエストがあり、エラーログによりディスクが100%消費されてしまったこと…

あらゆるウェブページをRSSに変換するサービスを公開しました

Final ScraperはRSSを出力しないウェブページをパターン解析し、RSSフィードを出力するサービスです。 ようやく安定して動作するようになりましたのでリリースしました。ご利用は無料です。 Happyou Final Scraper 同様のサービスは他にも存在しますが、Fina…

すべての上場企業のと地方自治体のサイトをスクレイピングして大変だったことを書きます(移転)

書いたんですけど、テクニカルな記事だったし、あまり反応もなかったので、Qiitaというサイトに移転しました。 qiita.com

全上場企業と全地方自治体のRSSを出力することに成功しました

happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。 happyou.infoのトップページ Final ScraperFinal Scraper はHTMLページのパターン解析を行い…

普及して欲しくないアンチスクレイピングサービス

スクレイピングとは、ウェブページから情報を取り出す処理を指します。そのためのプログラムやツールが存在します。 さて、ここで立場を変えて、情報を取り出されてしまうウェブサイト側の立場になって考えてみますと、スクレイピングはあまりうれしくない存…

happyou.info - はじまりのことば

ザイソフト 岡本将吾と申します。 happyou.infoというウェブサイトを開発しています。 happyou.infoは、現在、 官公庁と上場企業のウェブサイト合計約7000件のサイトを巡回し、更新されたニュースを収集しています。RSSフィードを生成していないサイトに関し…