ラベル リンク切れ の投稿を表示しています。 すべての投稿を表示
ラベル リンク切れ の投稿を表示しています。 すべての投稿を表示

2015年10月7日水曜日

wgetでサイト内のリンク切れチェック(いろいろ実験)

以前、wgetでサイト内のリンク切れチェックの記事でwgetのspiderオプションを紹介しましたが、実施するにあたって 「-recursive -level 1」とすると指定ページだけチェックして終わり?もしくは指定したページからリンクされたページまで辿る? 同一URLのリンクが複数貼られていた場合、毎回チェックしにいくのか リダイレクトされるURLの場合、リダイレクト先まで追ってくれるのか 一斉に大量のリクエストを送ってサーバに負荷をかけ過ぎないか のような疑問が浮かんだので、実際に実験してみました。 準備 以下の様なリンク構造を持ったサイトを用意しました。 やかましい矢印は他ページへのリンクを表しています。/detail/4.htmlからはトップページ(index.html)へ302リダイレクトするようにしています。 結果 -recursive...

wgetでサイト内のリンク切れチェック

主にリソースのダウンロードに多用するwgetコマンドですが、オプションの指定の仕方によってリンク切れチェッカーとして使えることがわかりました。 社内サーバやベーシック認証がかかっている環境にも適用可能で、cron等のタスクスケジューラにも登録しやすいので、 開発の最終フェーズから、日々のサイト内リンクの死活監視まで幅広く重宝すると思います。 ■コマンド 色々なオプションがありますが、実際に使ったコマンド例をご紹介します。 $ wget --spider --no-directories --background -o {YOUR_LOG_PATH} \ --recursive --level 3 --no-verbose --execute robots=off \ --user={YOUR_ACCOUNT} --password={YOUR_PASSWORD} \ --user-agent="Mozilla/5.0...