社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

机器学习学术速递[6.23]

2026必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...

「机器学习之父」Jordan：Hinton等「思想领袖们」正在伤害年轻一代

美国防部将于“七月初”首次部署应用ChatGPT

AIGC For Future 全球挑战赛“未来城市・遇见小亦”IP创作赛决赛暨颁奖仪式在北京亦庄举...

十万个why：Nginx 已经能做负载均衡，为什么还需要服务注册发现？

「机器学习之父」Jordan：Hinton等「思想领袖们」正在伤害年轻一代

机器学习学术速递[6.25]

柳州融媒官方出品——AIGC短视频实战训练营，实用开课！

【“机器学习之父”Michael Jordan：AGI就是个炒作-20260622184928

关注

Py学习 » Python

[精华] Beautiful Soup，一个好用的HTML/XML的解析器

易冷天涯 • 12 年前 • 7021 次点击

Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器，它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于不规则的 Html文档，也有很多的补全功能，节省了开发者的时间和精力。

这里以Beautiful Soup3.0为例，说明Beautiful Soup的简单用法。

下载：

http://www.crummy.com/software/BeautifulSoup/#Download

安装：

python setup.py install

导入Beautiful Soup库：

from BeautifulSoup import BeautifulSoup              # HTML
from BeautifulSoup import BeautifulStoneSoup         # XML
import BeautifulSoup                                 # Everything

首先读取内容

import urllib2
url = 'http://xxx.com'
html = urllib2.urlopen(url)
text = html.read()

生成soup

soup = BeautifulStoneSoup(text)

找node的两种方式

data = soup.findAll("p", {"class" : "right"})
# 寻找所有<p class="right"></p>，返回一个list

data = soup.findAll(id="xxx")
# 寻找所有<yy id = "xxx"></yy>，返回一个list

获取node的内容

data.string

更多请看官方文档：

英文版中文版

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/215

文章 [ 1 ] | 最新文章 12 年前

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号