wgetで指定URLからリンクされているファイルを取得する

wgetで指定URLからリンクされているファイルを取得する

コマンド

wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol  http://sample.scraping-book.com/dp

オプションの説明
-r               再帰的に取得する
--no-parent          親ディレクトリのリンクは取得しない
-w 1              再帰的にダウンロードするときにダウンロード間隔として1秒空ける
-l 1              再帰的にダウンロードするときにリンクをたどる深さを1階層に制限する
--restrict-file-names=nocontrol URLに日本語が含まれる場合に、日本語のファイル名で保存する

実行結果

XXXXXX:crawling_and_scraping XXXXX$ tree -f
.
├── ./01.wget
├── ./gihyo_top.html
├── ./gihyojp_logo.png
├── ./index.html
└── ./sample.scraping-book.com
    ├── ./sample.scraping-book.com/assets
    │   └── ./sample.scraping-book.com/assets/images
    │       └── ./sample.scraping-book.com/assets/images/dummy.png
    ├── ./sample.scraping-book.com/dp
    ├── ./sample.scraping-book.com/index.html
    └── ./sample.scraping-book.com/robots.txt

4 directories, 7 files