Python Scrapingに挑戦2
概要
pythonのscrapingに挑戦2
参考書籍
Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう
- 作者: クジラ飛行机
- 出版社/メーカー: ソシム
- 発売日: 2016/12/06
- メディア: 単行本
- この商品を含むブログを見る
リンク先を丸ごとダウンロード〜相対パスを展開する方法
from urllib.parse import urljoin base = "http://example.com/html/a.html" print ( urljoin(base, "b.html")) print ( urljoin(base, "sub/c.html")) print ( urljoin(base, "http://kujirahand.com/wiki")) print ( urljoin(base, "//uta.pw/shodou"))
urljoin便利やな。
HTMLは再帰的に処理する必要あり。
HTMLを解析 リンクを抽出 書くリンク先について、ファイルをダウンロード、ファイルがHTMLの場合は、再度同じ処理をする