PythonでHTML中のa要素を取得する処理を作成。 動かすためには、lxmlとcssselectライブラリが必要です。 以下のコマンドを実行し、インストールしてください。
lxmlのインストール
pip install lxml
cssselectのインストール
pip install cssselect
ソース
#!/usr/bin/python # coding: utf-8 # HTML内のa要素をすべて取得する import lxml.html # HTMLファイルを読み込み、getRoot()メソッドでHtmlElementオブジェクトを得る tree = lxml.html.parse('test.html') html = tree.getroot() # cssselect()メソッドでa要素のリストを取得して、個々のa要素に対して処理を行う for a in html.cssselect('a'): # href属性とリンクのテキストを取得して表示する print(a.get('href'), a.text)