Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。
这里以Beautiful Soup3.0为例,说明Beautiful Soup的简单用法。
下载:
http://www.crummy.com/software/BeautifulSoup/#Download
安装:
导入Beautiful Soup库:
from BeautifulSoup import BeautifulSoup # HTML
from BeautifulSoup import BeautifulStoneSoup # XML
import BeautifulSoup # Everything
首先读取内容
import urllib2
url = 'http://xxx.com'
html = urllib2.urlopen(url)
text = html.read()
生成soup
soup = BeautifulStoneSoup(text)
找node的两种方式
data = soup.findAll("p", {"class" : "right"})
# 寻找所有<p class="right"></p>,返回一个list
data = soup.findAll(id="xxx")
# 寻找所有<yy id = "xxx"></yy>,返回一个list
获取node的内容
更多请看官方文档:
英文版
中文版