如何获取代理ip

很多同学在爬取数据时,常常要加一行代码:

time.sleep(2)

加这行程序是为了防止我们的爬虫程序对我们要爬取目标网址的访问频率过快,导致目标网站误以为我们是攻击行为,进而被封ip,而不能继续访问该网站。所以要加以上那行程序。

为了防止我们被目标网站封掉ip,并且加快我们爬取的速度,聪明的你一定会想到使用代理,利用多个ip对我们的目标网站进行快速地爬取。

那么我们该如何获取代理ip呢: 使用谷歌或者百度 代理ip,会出现很多提供代理ip的网站,就可以找到很多可以免费使用ip代理网站。但是免费的ip质量可能不太好,一是不能实现完全匿名,二是速度跟不上。当然,付费的代理ip质量会比较有保证。如果需要稳定的代理,最好购买。

如何使用代理

import requests
import json
import random
resp = requests.get("http://tor1024.com/static/proxy_pool.txt")
ips_txt = resp.text.strip().split("\n")
ips = []
for i in ips_txt:
    try:
        k = json.loads(i)
        ips.append(k)
    except Exception as e:
        print(e)
r = requests.get("http://bj.ganji.com/",proxies=random.choice(ips),timeout=6)
print(r)

这是使用代理的方法,调试的时候不用代理,等大量抓取的时候再去使用。

try...except 自己加一下。

results matching ""

    No results matching ""