wgetで指定URLからリンクされているファイルを取得する
コマンド
wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol http://sample.scraping-book.com/dp
オプションの説明
-r 再帰的に取得する
--no-parent 親ディレクトリのリンクは取得しない
-w 1 再帰的にダウンロードするときにダウンロード間隔として1秒空ける
-l 1 再帰的にダウンロードするときにリンクをたどる深さを1階層に制限する
--restrict-file-names=nocontrol URLに日本語が含まれる場合に、日本語のファイル名で保存する
実行結果
XXXXXX:crawling_and_scraping XXXXX$ tree -f . ├── ./01.wget ├── ./gihyo_top.html ├── ./gihyojp_logo.png ├── ./index.html └── ./sample.scraping-book.com ├── ./sample.scraping-book.com/assets │ └── ./sample.scraping-book.com/assets/images │ └── ./sample.scraping-book.com/assets/images/dummy.png ├── ./sample.scraping-book.com/dp ├── ./sample.scraping-book.com/index.html └── ./sample.scraping-book.com/robots.txt 4 directories, 7 files