HTML中のa要素をすべて取得する

PythonでHTML中のa要素を取得する処理を作成。 動かすためには、lxmlとcssselectライブラリが必要です。 以下のコマンドを実行し、インストールしてください。

lxmlのインストール

pip install lxml

cssselectのインストール

pip install cssselect

ソース

#!/usr/bin/python
# coding: utf-8

# HTML内のa要素をすべて取得する

import lxml.html

# HTMLファイルを読み込み、getRoot()メソッドでHtmlElementオブジェクトを得る
tree = lxml.html.parse('test.html')
html = tree.getroot()

# cssselect()メソッドでa要素のリストを取得して、個々のa要素に対して処理を行う
for a in html.cssselect('a'):
    # href属性とリンクのテキストを取得して表示する
    print(a.get('href'), a.text)