以 OTA 为例,看爬虫和反爬虫大战现状

随着大数据与机器学习的兴起,数据成了大家关注的重点。因此,爬虫成了小公司的命脉,反爬虫成了大公司的命脉。OTA 是爬虫的一大战场,希望从这里能让大家看出,这个不阳光的行业,现状是怎样的。

实录提要:

  • 如何分析爬虫请求和正常用户;
  • 爬虫在识别的时候怎么识别是否是同一个商品;
  • 怎么保证返回的错误数据没影响到用户呢;
  • 爬虫可能是亿级别的商品数据,如何判断页面的数据有没有变更;
  • 作者的爬虫是基于正则表达式实现的吗;
  • 怎么判断异地登录是正常的用户行为还是爬虫行为;
  • 专业做爬虫技术路线是怎样的;
  • 如何防止被爬取的网址限制 IP,用一个IP池不停的换 IP 吗;
  • 你们的反爬虫是怎么架构的;
  • 开发爬虫什么语言做好;
  • 针对 App 反爬虫来说,HTTPS 双向认证的方式是不是爬虫就没办法破解了;
  • 如果说反爬虫是一个独立的项目,是否一个开关是否打开反爬虫?

阅读全文: http://gitbook.cn/gitchat/activity/58f08153d7ed20263387b74c

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

你可能感兴趣的:(以 OTA 为例,看爬虫和反爬虫大战现状)