happyou.infoのブログ

ニュース収集サイトhappyou.infoのブログです。 国内外のあらゆる企業と組織、団体のウェブサイトの更新を収集します。 岡本将吾が運営しています。twitterは @happyou_info_ja です。

FinalScraperの現状と今後

FinalScraperを発表してから1ヶ月位たったのでまとめておこうと思う。

  • 動作はかなり安定していると思う。
  • サービスを公開した本来の目的であるところの、「正しく検出できないパターンについてユーザさんにクレームを付けてもらう」が全く達成できていない。皆黙って使うだけ。うまく動かなければ黙って立ち去るだけ。どうにかならないか。
  • 日本語URLがうまく処理できないようだ。直そう。例) http://www.fsight.jp/subcategory/無料 エンコードされていないURLが投げられた場合の処理。%E7%84%A1%E6%96%99
  • そのサイトが元々RSSフィードを出力している場合、「元々そのサイトはこのRSSを出力していますよ」と結果表示に含めるべき。
  • サーバの負荷が増えてきたらログイン必須にして上限を設ければ良い。