2015年10月7日水曜日

wgetでサイト内のリンク切れチェック(いろいろ実験)

以前、wgetでサイト内のリンク切れチェックの記事でwgetのspiderオプションを紹介しましたが、実施するにあたって「-recursive -level 1」とすると指定ページだけチェックして終わり？もしくは指定したページからリンクされたページまで辿る？同一URLのリンクが複数貼られていた場合、毎回チェックしにいくのかリダイレクトされるURLの場合、リダイレクト先まで追ってくれるのか一斉に大量のリクエストを送ってサーバに負荷をかけ過ぎないかのような疑問が浮かんだので、実際に実験してみました。準備以下の様なリンク構造を持ったサイトを用意しました。やかましい矢印は他ページへのリンクを表しています。/detail/4.htmlからはトップページ(index.html)へ302リダイレクトするようにしています。結果 -recursive...

wgetでサイト内のリンク切れチェック

Unknown 19:49

主にリソースのダウンロードに多用するwgetコマンドですが、オプションの指定の仕方によってリンク切れチェッカーとして使えることがわかりました。社内サーバやベーシック認証がかかっている環境にも適用可能で、cron等のタスクスケジューラにも登録しやすいので、開発の最終フェーズから、日々のサイト内リンクの死活監視まで幅広く重宝すると思います。 ■コマンド色々なオプションがありますが、実際に使ったコマンド例をご紹介します。 $ wget --spider --no-directories --background -o {YOUR_LOG_PATH} \ --recursive --level 3 --no-verbose --execute robots=off \ --user={YOUR_ACCOUNT} --password={YOUR_PASSWORD} \ --user-agent="Mozilla/5.0...

開発チームのブログ

2015年10月7日水曜日

wgetでサイト内のリンク切れチェック(いろいろ実験)

wgetでサイト内のリンク切れチェック

Popular Posts

Recent Posts

Categories

Unordered List

Text Widget

Pages

Blog Archive