happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

2023-01-01から1年間の記事一覧

最近のテーブルパーサ

引き続き表のスクレイピングを諦めない。 最近試したテーブルパーサ table-transformer GitHub - microsoft/table-transformer: Table Transformer (TATR) is a deep learning model for extracting tables from unstructured documents (PDFs and images). …

FinalScraper1のノイズ除去

FinalScraper1のHTMLからのRSS生成がかなり遅くなっていたようなので、 長期間アクセスのないRSSフィードや、長期間エラーが返ってきているページを削除しました。 現在RSSの遅延生成は徐々に回復しつつあります。