Python 爬虫实践-抓取小说

网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

爬虫流程:

1,先由 urllib 的 request 打开 Url 得到网页 html 文档
2,浏览器打开网页源代码分析元素节点
3,通过 Beautiful Soup 或正则表达式提取想要的数据
4,存储数据到本地磁盘或数据库(抓取,分析,存储)

下面以爬取 笔趣网 里面的小说为例:
整个逻辑我这里倒着来讲述;

下图是 一篇小说某个章节的正文内容,我们用 Chrome 浏览器打开后,右键 -> 检查 ,再按照下图操作;
Python 爬虫实践-抓取小说_第1张图片
从上图可以,看出 一篇小说的某个章节的正文在

的节点里面,知道这个规律之后,我们就可以开始码代码了;

def getContent(target):
	req = requests.get(url = target)
	# 这里注意 encode,否则可能乱码
	html = req.text.encode(req.encoding, 'ignore')
	bf = BeautifulSoup(html, "lxml")
	# 找到所有 
节点 texts = bf.find_all('div', class_ = 'showtxt') # 替换掉每个段落前面的 8个   texts = texts[0].text.replace('\xa0'*8,'\n\n') return texts

上面这段代码是拿到某个章节的内容, 接下来看看 一篇小说的所有章节怎么拿到?
Python 爬虫实践-抓取小说_第2张图片
上图是 一篇小说的所有章节目录,从上面这个规律,可以发现就是

你可能感兴趣的:(Python,Python,爬虫,小说)