社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

[精华] Beautiful Soup,一个好用的HTML/XML的解析器

易冷天涯 • 11 年前 • 6125 次点击  

Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。

这里以Beautiful Soup3.0为例,说明Beautiful Soup的简单用法。

下载:

http://www.crummy.com/software/BeautifulSoup/#Download

安装:

python setup.py install

导入Beautiful Soup库:

from BeautifulSoup import BeautifulSoup              # HTML
from BeautifulSoup import BeautifulStoneSoup         # XML
import BeautifulSoup                                 # Everything

首先读取内容

import urllib2
url = 'http://xxx.com'
html = urllib2.urlopen(url)
text = html.read()

生成soup

soup = BeautifulStoneSoup(text)

找node的两种方式

data = soup.findAll("p", {"class" : "right"})
# 寻找所有<p class="right"></p>,返回一个list

data = soup.findAll(id="xxx")
# 寻找所有<yy id = "xxx"></yy>,返回一个list

获取node的内容

data.string

更多请看官方文档:

英文版 中文版

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/215
 
6125 次点击  
文章 [ 1 ]  |  最新文章 11 年前