模拟登录与数据抓取-0929

采集数据案例网:

卷皮网 :http://www.juanpi.com/

  1. file_get_content() 不能传参数

  2. python作数据采集

  3. curl 请求 ajax js返回字符串不解析

  4. 商品列表,正则匹配出来

  5. 抓取,就可以防盗链

  6. 有些页面不登录不能抓取。返回html代码

  7. 没有cookie不能抓取,本地 cookie没有存在sessionid

  8. 表单和 URL 可以带令牌。

防抓页面

  1. 设置coookie

  2. URL字段

  3. get请求字段

  4. curl模仿浏览器一样把cookie也存下来 模拟登录sessionID带上去

  5. 高级的cookie不在请求响应头里设置,在后台设置

  6. 前端是用js代码生成,字符串不能被解析,手动计算代码。

  7. curl文件里,防盗链是相对的。拿到令牌,下次传过去

  8. 前台,计算值. 可以防掉一大部份的人

  9. 设置cookie几种形式 js php html标签,post字段,get超链接也可以做令牌。

  10. 自定义头,value

  11. 爬虫 所有连接,外连,和网站相关的全部访问。

  12. network response下面 解析json

  13. sass平台类似QQ企业邮箱

  14. www.qqe2.com json数据转换

  15. taobao权限判断

作业

1、源代码模拟登录

2、扒淘宝的一个子页面,存到数据库,找一个时间点,存到数据库

  1. 页面,完整,美观,无缺陷,列表页,分详,详情,列表页扒到1000条,10页

数据

3、12306火车票模拟登录,找验证码,识别模拟登录进去。图片请示回来,,点击图片4个坐标当,参数传回去模拟登录

你可能感兴趣的:(模拟登录与数据抓取-0929)