
别让User-Agent出卖你
各位老铁在用爬虫薅数据的时候,肯定遇到过网站死活不让访问的情况吧?这时候User-Agent就是你的命门。举个栗子,你用默认的cURL请求头,服务器一看:”哦,curl/7.68.0这小崽子又来偷数据了”,直接给你403封号没商量。
找打的请求方式
curl https://example.com
伪装大法好
这时候就得祭出User-Agent伪装术。咱们ipipgo的技术小哥实测,用下面这个姿势成功率能涨三倍不止:
curl -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
--proxy http://user:pass@proxy.ipipgo.com:8888
https://target-site.com
重点来了:-A参数就是改User-Agent的开关,后面接的这串火星文要看着像正经浏览器。建议去浏览器开发者工具里抄最新版的UA,别用网上那些过时的模板。
代理IP的黄金搭档
单改UA还不够,聪明的网站会记你IP。这时候就得用上咱家ipipgo的动态住宅代理,效果好比给请求套了十层丝袜:
| 功能 | 普通代理 | ipipgo代理 |
|---|---|---|
| 匿名等级 | 透明/普通 | 高匿名 |
| IP存活时间 | 5-10分钟 | 30分钟+ |
| 请求头伪装 | 不带X-Forwarded-For | 自动伪造全套 |
实战代码这样写:
curl -x http://user:pass@proxy.ipipgo.com:8888
-H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)..."
-H "Accept-Language: zh-CN,zh;q=0.9"
https://data-source.com/api
注意看-H参数,这里除了UA还加了语言标识。有些网站会校验多维度信息,别在阴沟里翻船。
避坑指南
新手常见翻车现场:
- UA和IP地域不匹配(比如用中文UA配美国IP)
- 忘记设置超时参数导致卡死
- 高频请求忘记切换IP池
推荐用ipipgo的智能轮换模式,自动处理IP切换。代码示例:
curl --proxy http://user:pass@auto-rotate.ipipgo.com:8899
--max-time 30
-A "Mozilla/5.0 (iPhone; CPU iPhone OS 16_6 like Mac OS X)..."
https://mobile-site.com
常见问题QA
Q:UA伪装了还是被识别怎么办?
A:八成是其他请求头露馅了,用curl -v查看完整请求头,用ipipgo的请求头模板工具生成全套伪装。
Q:代理IP速度慢怎么破?
A:在ipipgo控制台切换低延迟节点,加上--connect-timeout 10参数,超过10秒自动放弃。
Q:需要多线程请求怎么办?
A:用ipipgo的并发授权功能,每个线程单独配代理,千万别多个线程共用一个IP。
最后唠叨一句,现在很多网站都有行为分析系统,光改UA和IP还不够,记得控制请求频率。实在搞不定的话,ipipgo的技术支持7×24小时在线支招,报暗号”UA大法”还能领免费测试时长。

