小说全篇爬取

首先获取小说目录页面的内容,代码如下:

list_url = 'https://www.513gp.org/book/5105/index.html'
response = requests.get(list_url)
print(response)
response.encoding = 'gbk'
print(response.text)

运行的结果如下:

小说全篇爬取_第1张图片

可以观察到 每一个章节的大体是相同的,只有特定部分的有点不一样。例如网址的后半段、每个章节的标题,这时可以使用re模块对字符串进行匹配

re 模块

语法:re.match(pattern, string, flags=0)

pattern:匹配的正则表达式

string:要匹配的字符串

flags=0:标志位,用于控制正则表达式的匹配方式,如是否区分大小写、多行匹配等等

第一节第二节

可以观察到固定的部分为:.*?,()里的内容为需要提取的部分,代码可以写为:

你可能感兴趣的:(爬虫)