爬虫常用工具类网站

https://spidertools.cn/#/   爬虫工具库  各种格式化  参数提取 加密解密 爬虫分享

https://www.json.cn/  json解析  json处理

https://base64.us/  Base64编码解码

https://alisen39.com/  httpRaw 转 Python

http://httpbin.org/get   查看本地请求信息

http://tool.chinaz.com/tools/unicode.aspx   站长工具编码解码合集

http://web.chacuo.net/netproxycheck    代理服务器连接测试工具

http://tool.yuanrenxue.com       爬虫分析工具    爬虫比赛题目

GitHub - lixi5338619/lxpy: Web crawler and data processing toolkit !   时间处理   复制的Header转化为字典     随机UA生成   html去除标签 jsonp转json  xpath正则匹配  以及一些不常用加密的处理

智能解析项库:适用于舆情分析等行业需要采集大量网站  原理:1.基于文档提取  2.基于DOM节点提取  3,基于视觉信息提取   案例:

Newspaper        基于DOM节点的正文内容提取

GeneralNewsExtractor               基于网页文本密度与符号密度对网页正文进行提取


 

你可能感兴趣的:(爬虫)