
搞爬虫被封IP?手把手教你用代理IP白嫖GitHub资源
最近在GitHub扒拉项目源码时,老是被403拦路。试了各种user-agent伪装还是不行,后来问了个做数据抓取的老司机,才知道现在网站都学精了,直接封IP地址。这时候就需要代理IP来当替身演员,让服务器以为每次访问都是不同人。
为啥要用住宅代理?机房IP早过时了
很多新手还在用免费机房IP,结果刚爬两页就被封。现在网站反爬机制贼精,看到机房IP段直接拉黑。ipipgo的动态住宅代理用的是真实家庭宽带IP,就像真人上网冲浪,成功率直接翻倍。
import requests
from itertools import cycle
从ipipgo获取的代理列表
proxies = [
'http://user:pass@gateway.ipipgo.net:3000',
'http://user:pass@gateway.ipipgo.net:3001',
'http://user:pass@gateway.ipipgo.net:3002'
]
proxy_pool = cycle(proxies)
url = 'https://github.com/search?q=python+spider'
for page in range(1,6):
proxy = next(proxy_pool)
try:
response = requests.get(
f"{url}&p={page}",
proxies={"http": proxy, "https": proxy},
timeout=10
)
print(f"第{page}页抓取成功")
except:
print("换个IP继续干!")
三招玩转ipipgo代理池
第一招:在后台创建「爬虫专用」通道,选动态住宅标准版套餐,支持按量付费不浪费。建议同时开3个以上通道,遇到封禁秒切换。
第二招:用他们的API动态获取IP,记得设置3秒超时自动切换。实测每小时换50次IP,连续跑12小时都没触发反爬。
| 套餐类型 | 适用场景 | 价格优势 |
|---|---|---|
| 动态住宅(标准) | 中小型爬虫项目 | 7.67元/GB |
| 动态住宅(企业) | 分布式爬虫系统 | 9.47元/GB |
第三招:在爬虫代码里加个异常重试机制。建议用python的retrying库,配置10次重试间隔,亲测抓GitHub的star历史记录稳如老狗。
小白常见坑点实录
Q:明明用了代理为啥还是被封?
A:八成是代理质量不行,免费代理经常多人共用。ipipgo的独享静态住宅IP,35块一个月那个,专门解决这个问题。
Q:爬虫速度怎么提不上来?
A:别用单线程!配合aiohttp做异步请求,同时开20个连接,记得每个连接用不同代理通道。
Q:需要处理验证码怎么办?
A:在他们后台开启TK专线服务,这种线路自带人机验证破解,适合抢开源项目限时star这种骚操作。
说点大实话
用过七八家代理服务,ipipgo最让我惊艳的是那个「IP预热」功能。在正式开爬前先让代理IP访问几个普通网站,等IP过了网站的风控观察期再用,这招让我的采集成功率从47%飙升到89%。
最近他们搞了个新功能,在客户端可以直接看到每个IP的地理位置和运营商信息。有次我发现某个英国IP实际是沃达丰的线路,果断用来爬伦敦公司的公开数据,那叫一个稳!

