requests+Google爬取80%网站的思想

requests+Google爬取80%网站的思想

1.requests相比urllib简单了许多,话不多说先来个官网看看:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
http://docs.python-requests.org/zh_CN/latest/user/advanced.html?

2.pip install requests

3.首先使用Google分析网站的数据,获取url的接口(接口是一个网站数据的真实来源)

举一个简单的例子(一点资讯):

1.有些网站可以直接通过google查看网站源代码,然后使用python+正则获取想要的数据在这里插入图片描述;这种非常简单,但很多网站是不能这样用的,因为虽然可以查看网站源代码,但使用python获取数据的时候却发现无法获取数据。
requests+Google爬取80%网站的思想_第1张图片
requests+Google爬取80%网站的思想_第2张图片
2.上面的无法获取数据,这时候就需要Google的检查功能,
步骤:

1.Google右击检查 

requests+Google爬取80%网站的思想_第3张图片

2.点击Network

requests+Google爬取80%网站的思想_第4张图片

3.勾选Preserve log(保存日志,否则只显示每次响应的链接) ,然后清空url,并刷新

requests+Google爬取80%网站的思想_第5张图片

4.ctrl+F,搜索关键字,找到url的真实接口

requests+Google爬取80%网站的思想_第6张图片

5.已经获取url的真实接口,接着就使用python获取数据

requests+Google爬取80%网站的思想_第7张图片
requests+Google爬取80%网站的思想_第8张图片
requests+Google爬取80%网站的思想_第9张图片
requests+Google爬取80%网站的思想_第10张图片

		1.首先引入相关库:import requests,re(这里我用新手常用的正则来获取数据)

		2.测试请求连接,并完善请求头

		3.正则获取数据,并筛选
		
		4.本章的URL接口还需要继续处理,这里只是简单分析一下爬虫的思路

如果看客喜欢的话,点个赞,有问题的话可以评论或加好友私聊

你可能感兴趣的:(python爬虫)