Djangoroidの奮闘記

python,django,angularJS1~三十路過ぎたプログラマーの奮闘記

Python Scrapingに挑戦2

概要

pythonのscrapingに挑戦2

参考書籍

リンク先を丸ごとダウンロード〜相対パスを展開する方法

from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print ( urljoin(base, "b.html"))
print ( urljoin(base, "sub/c.html"))
print ( urljoin(base, "http://kujirahand.com/wiki"))
print ( urljoin(base, "//uta.pw/shodou"))

urljoin便利やな。

HTMLは再帰的に処理する必要あり。

HTMLを解析 リンクを抽出 書くリンク先について、ファイルをダウンロード、ファイルがHTMLの場合は、再度同じ処理をする