Djangoroidの奮闘記

python,django,angularJS1~三十路過ぎたプログラマーの奮闘記

Python Scrapingに挑戦2

概要

pythonのscrapingに挑戦2

参考書籍

Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう

Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう

作者: クジラ飛行机
出版社/メーカー: ソシム
発売日: 2016/12/06
メディア: 単行本
この商品を含むブログを見る

リンク先を丸ごとダウンロード〜相対パスを展開する方法

from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print ( urljoin(base, "b.html"))
print ( urljoin(base, "sub/c.html"))
print ( urljoin(base, "http://kujirahand.com/wiki"))
print ( urljoin(base, "//uta.pw/shodou"))

urljoin便利やな。

HTMLは再帰的に処理する必要あり。

HTMLを解析リンクを抽出書くリンク先について、ファイルをダウンロード、ファイルがHTMLの場合は、再度同じ処理をする