Wed 08/04, 2004

鬱陶しいもの(3) [Site info. and blog ]

悪名高い HTML 収集のためのロボット NaverBot と、「IPA未踏ソフトウェア創造プロジェクト」だとかのblogWatcher_Spider の挙動がなんだか良く似ている。

  • アクセス頻度が激しい。
  • robots.txt を読むが、それに従わない。

当サイトでは、両ロボットが短時間のうちにサイト内を crawl して行くのを発見した時点で、それらに対し robots.txt で参照拒否の意思表示をした上で、robots.txt 以外の参照を禁止(UserAgent による方法の他、NaverBot については IP アドレスでの拒否も併用)した。

NaborBot のほうは、これが功を奏してか随分アクセスが減った。以前は短時間のうちにサイト内全てをさらえようかという勢いのアクセスがが頻繁にあったのが、現在では時折、恐らくは他のサイトからのリンクを参照したと思われるアクセスがある程度だ。そうした際にも robots.txt を読みながら無視する姿勢は変わらない。

blogWatcher のほうも概ね同じだが、興味深いのは robots.txt を頻繁に参照することだ。1時間に1度のペースだったり、5分に1度のペースだったり、はたまたぱったりアクセスが止まったりと、不思議な挙動が見られる。一応 robots.txt を尊重しているのかと思いきや、そうでもなかったりもする。説明を見る限り、一応配慮しているようにも受け取れる。メールなりで問い合わせても良いのだけれど面白いから放っておこう。

「blogWatcher_Spider」の振る舞いについて
  • UserAgentについて
    「blogWatcher_Spider」は,「blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/blogwatcher/)」という UserAgentでクローリングを行います. よって,もし我々のクローラーが問題を起こすようであれば,以下のようなrobots.txtを設置してください.
    User-agent: blogWatcher_Spider
    Disallow: /
    
  • blogの収集,監視について
    blogWatcher_Spiderでは,一度blogでないと判断されたページについては,その後クローリングは行いません.しかし,blogと判定されたページについては,そのページに書かれているentry(一日分の記事)が一か月以内のものと判断されれば監視対象となり,ページの更新間隔に従って(最高一日一回)更新をチェックしております.(ただし,RSSが見つかった場合は,indexページのみを監視対象とします.)

アクセスログを見る限り、挙動は微妙に違う。RSS(RDF Site Summary)を発見した後も他のページの参照を試みる、robots.txt のチェックは「最高一日一回」の制限がない、等々。blogWatcher のサービスについては各所から期待されているようだが、少なくとも robot の振る舞いについては再検討すべきだろう。

[2004.08.22] その後は一応 robots.txt に従っているようだが、その robots.txt を日に何十回もチェックするのはどうかと思う。

[2004.09.03] このごろは頻繁に robots.txt を参照にくることはなくなった。

Posted by masato at 07:55 PM
このエントリーのトラックバックURL: http://bird.dip.jp/cgi-bin/mt/mt-tb.cgi/844
コメントする

おそらく携帯電話等からは投稿できません。日本語文字列を含まないコメントやトラックバック、および当サイトへの言及を含まないトラックバックは御遠慮いただいております。また、90日以上経過した記事へのコメントはできません。










名前、アドレスを登録しますか?