Python爬虫代理IP

前言

在Python爬虫中,代理IP基本是必备的,因为基本上网站都会有反爬措施,对请求频繁和异常的IP进行自动封锁,拉入黑名单,所以我们需要有代理IP来实现动态IP的效果,保证请求的IP会变化,是动态的,这样网站就不会把我们的IP当作爬虫IP了

目录

国内代理IP和海外代理IP的现状

代理IP最常用最实用的作用

使用方法


国内代理IP和海外代理IP的现状

市面上的代理IP分为国内代理IP和海外代理IP

国内代理IP:  把自己的IP代理成动态的国内IP

海外代理IP:  把自己的IP代理成动态的海外IP

 一般来说,自己的IP是国内的,是无法使用海外代理IP的,自己IP是国外的,既可以使用国内代理IP和国外代理IP

如果做的是跨境的业务,国内外网站都需要访问

        推荐使用香港、美国等境外服务器进行搭建,采用“境外服务器+合法CDN加速”方案,通过CDN节点优化国内访问速度,这样就解决了国内外都访问的难题

        不建议使用国内IP伪装成海外IP访问海外网站进行爬虫,不合法

代理IP作用

代理IP就是为了隐藏真实IP,避免被Python爬虫的网站发现统计到异常,被封禁

原理就是使用代理IP池轮换IP,使每次请求来自不同IP,避免单一IP因高频访问被标记为爬虫。

使用方法

import requests
 
proxy = {
    "http": "http://proxy.example.com:8080",
    "https": "http://proxy.example.com:8080"
}

headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
 
response = requests.get("http://www.example.com", headers=headers, proxies=proxy)
print(response.text)

代理IP服务商网上很多,自行寻找自己合适的

你可能感兴趣的:(Python爬虫知识记录,python,爬虫,tcp/ip)