
以前、wgetでサイト内のリンク切れチェックの記事でwgetのspiderオプションを紹介しましたが、実施するにあたって
「-recursive -level 1」とすると指定ページだけチェックして終わり?もしくは指定したページからリンクされたページまで辿る?
同一URLのリンクが複数貼られていた場合、毎回チェックしにいくのか
リダイレクトされるURLの場合、リダイレクト先まで追ってくれるのか
一斉に大量のリクエストを送ってサーバに負荷をかけ過ぎないか
のような疑問が浮かんだので、実際に実験してみました。
準備
以下の様なリンク構造を持ったサイトを用意しました。
やかましい矢印は他ページへのリンクを表しています。/detail/4.htmlからはトップページ(index.html)へ302リダイレクトするようにしています。
結果
-recursive...