一、简介
Beautiful Soup是一个用来解析HTML和XML的python库,很适合用于爬取网页,提供了很人性化的parse tree,比起传统的SGMLParser给力多了
二、安装
安装Beautiful Soup
三、例子
这里使用下列html源码来让Beautiful Soup解析
格式化源码
测试下自带的一些数据结构
找出所有超链接出来
分离出所有的文本内容
四、实战
任务就是提取每部电影的标题跟种子的链接
备注
原理很简单,使用urllib2打开需要解析的网页(注意编码问题),然后使用BeautifulSoup格式化HTML源码,先查找电影栏目的div id,然后再找里面的所有超链接,最后使用re模块匹配torrent种子链接