不会写爬虫的快来Goose一下

今天遇到一个好玩的库,用来解析新闻类网页特别好用。基本上你不用分析网页,不用标签定位。

直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你。

缺点是goose不支持python3,为此我特点装了python2.7尝试写今天这篇文章。

goose项目https://github.com/grangier/python-goose


直接上代码截图

1、新闻标题

不会写爬虫的快来Goose一下_第1张图片

2、新闻发布网址域名

不会写爬虫的快来Goose一下_第2张图片

3、新闻关键词

不会写爬虫的快来Goose一下_第3张图片

4、新闻摘要

不会写爬虫的快来Goose一下_第4张图片

5、新闻详情

不会写爬虫的快来Goose一下_第5张图片

提醒大家下,代码中

from goose.text import StopWordsChinese

大家还是去掉吧,要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。


更多内容

爬虫

【视频】手把手教你抓美女~​

当爬虫遭遇验证码,怎么办

知易行难

用词云图解读“于欢案”

【视频】于欢案之网民的意见(1)?

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取用户信息

爬豆瓣电影名的小案例(附视频操作)

爬豆瓣电影名的小案例2(附视频操作)

python代理爬虫抓豆瓣电影数据(一)

python代理爬虫抓豆瓣电影数据(二)

用Python抓取百度地图里的店名,地址和联系方式

Python大法好:贴吧爬虫大法

文本分析

python居然有情感??真的吗??

基于共现发现人物关系的python实现

用python计算两文档相似度

神奇的python

怜香惜玉,我用python帮助办公室文秘

逆天的量化交易分析库-tushare

开扒皮自己微信的秘密

8行代码实现微信聊天机器人

使用Python登录QQ邮箱发送QQ邮件

你可能感兴趣的:(不会写爬虫的快来Goose一下)