网页爬取脚本编写：Python入门示例与代理集成

Pourquoi les robots d'indexation ont-ils besoin d'adresses IP proxy ?

刚开始学写爬虫的朋友可能会发现，程序跑着跑着就卡住了，或者直接返回一些奇怪的错误信息。很多时候，这并不是你的代码写错了，而是目标网站发现了你的爬虫行为，把你的IP地址给封了。想象一下，你在一家商店里不停地问价格，店员很快就会注意到你，甚至请你离开。网站也是同样的道理，它会记录每个IP地址的访问频率，如果短时间内请求太多，就会判定为异常访问。

这时候，代理IP就派上用场了。简单来说，代理IP就像一个“中间人”，你的请求先发给代理服务器，再由代理服务器去访问目标网站。这样，目标网站看到的是代理服务器的IP地址，而不是你的真实IP。即使某个代理IP被封锁，你只需要换一个，爬虫就可以继续工作，大大提高了稳定性和效率。

一个简单的Python爬虫示例

我们先来看一个最基础的爬虫脚本，它使用Python内置的urllib库来获取网页内容。这个例子能帮你理解爬虫最基本的工作原理。

from urllib.request import urlopen, Request
import json

 设置要访问的网址
url = "http://httpbin.org/ip"

 创建一个请求对象，可以设置请求头，模拟浏览器访问
req = Request(url, headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
})

 发送请求并获取响应
response = urlopen(req)

 读取返回的内容（通常是JSON或HTML格式）
html = response.read()

 打印出结果，这里会显示你当前使用的IP地址
print(json.loads(html))

运行这段代码，你会得到一个包含IP地址的JSON结果。这个IP就是你本机的公网IP。你可以反复运行几次，如果网站有频率限制，很快就能体验到IP被限制的感觉。

如何为爬虫集成代理IP

现在我们来升级脚本，让它通过代理IP来访问网络。这里我们以ipipgo的代理服务为例。ipipgo提供多种代理类型，对于初学者或常规爬取任务，其Agents résidentiels dynamiques是非常合适的选择，IP池大，自动轮换，能有效避免被封。

集成代理的关键在于正确设置代理服务器的地址、端口和认证信息（如果有的话）。Python的urllib库支持设置代理。

from urllib.request import ProxyHandler, build_opener, install_opener
import json

 1. 设置代理信息（请替换为你在ipipgo获取的实际信息）
proxy_ip = "gateway.ipipgo.com"   代理服务器地址
proxy_port = "12345"              代理服务器端口
proxy_username = "your_username"  你在ipipgo的用户名
proxy_password = "your_password"  你在ipipgo的密码

 构建完整的代理地址，格式为：http://user:pass@host:port
proxy_url = f"http://{proxy_username}:{proxy_password}@{proxy_ip}:{proxy_port}"

 2. 创建代理处理器
proxy_handler = ProxyHandler({
    'http': proxy_url,
    'https': proxy_url
})

 3. 创建一个使用代理的opener
opener = build_opener(proxy_handler)

 4. 安装这个opener，使其成为全局默认的urlopen方式
install_opener(opener)

 5. 现在再发送请求，就会自动通过代理IP了
url = "http://httpbin.org/ip"
response = urlopen(url)
result = json.loads(response.read())

print("通过代理IP访问，你的IP变为：", result['origin'])

这段代码的核心是创建了一个ProxyHandler，并把它安装为全局的打开器。之后所有的urlopen请求都会自动经由你设置的代理服务器发出。

更实用的爬虫：使用Requests库

在实际开发中，demandes库比urllib更常用，因为它更简洁、易用。你需要先安装它：pip install requests.

下面是使用demandes库配合ipipgo代理的示例：

import requests

 设置代理（以ipipgo的HTTP代理为例）
proxies = {
    'http': 'http://your_username:your_password@gateway.ipipgo.com:12345',
    'https': 'http://your_username:your_password@gateway.ipipgo.com:12345'
}

 设置请求头，模拟真实浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

 目标网址
url = 'https://httpbin.org/ip'

try:
     发送带代理的GET请求
    response = requests.get(url, proxies=proxies, headers=headers, timeout=10)
    response.raise_for_status()   如果请求失败（4xx或5xx），抛出异常

     打印结果
    print("请求成功！")
    print("通过代理IP访问，你的IP是：", response.json()['origin'])

except requests.exceptions.RequestException as e:
    print(f"请求出错: {e}")

这个脚本更加健壮，加入了异常处理，并且代码更清晰。将你的ipipgo账号信息正确填入mandataires字典中，就可以开始你的爬虫之旅了。

选择适合的ipipgo代理套餐

不同的爬取任务需要不同类型的代理。ipipgo提供了灵活的套餐，主要分为两大类：

动态住宅代理（标准/企业）：IP地址会定期变化，非常适合大规模、需要高匿名的数据采集任务，能有效规避反爬虫机制。如果你的任务是抓取大量公开数据，比如商品价格、新闻资讯等，这个是最佳选择。
Agents résidentiels statiques：IP地址在较长时间内固定不变。适合需要维持会话状态的任务，比如管理社交媒体账户、自动化操作等，因为固定的IP不会触发登录异常警报。

你可以根据自己项目的数据量、目标网站的反爬强度、是否需要保持登录状态这几个关键点来选择。

常见问题与解答（QA）

Q1：代码运行后报错，提示认证失败，怎么办？

A：请仔细检查三部分信息：代理服务器地址、端口、用户名和密码。确保它们完全正确，并且与你在ipipgo后台获取的信息一致。特别注意密码中是否含有特殊字符，可能需要做URL编码。

Q2：使用了代理，但速度变得非常慢，是什么原因？

A：这有几个可能的原因：一是代理服务器所在地理位置离你或目标网站较远，网络延迟高；二是免费或低质量的代理服务器本身带宽不足。建议选择像ipipgo这样提供高质量线路的服务商，并尽量选择离目标网站较近的节点。

Q3：如何知道代理IP是否真的生效了？

A：最直接的方法就是访问像 http://httpbin.org/ip peut-être https://api.ipify.org?format=json 这样的服务。它们会直接返回你当前请求使用的IP地址。如果返回的IP不是你本机的IP，就说明代理设置成功了。

Q4：爬虫代码应该多久请求一次比较合适？

A：这没有固定答案，取决于目标网站的容忍度。一个基本原则是“友好爬取”。不要在1秒内连续请求几十次，这很容易被封。建议在请求之间加入随机延时，比如：time.sleep(random.uniform(1, 3))，模拟人类浏览的间隔。对于反爬严格的网站，间隔可能需要更长。

résumés

将代理IP集成到Python爬虫中，是提升爬虫稳定性和成功率的关键一步。通过本文的示例，你应该已经掌握了基本的集成方法。记住，选择一家可靠的服务商至关重要，ipipgo提供的大量高质量IP资源和完善的协议支持，能为你解决IP被封的烦恼，让你更专注于数据抓取逻辑本身。在实际操作中，多测试、循序渐进地增加请求频率，是写出稳健爬虫的好习惯。

网页爬取脚本编写：Python入门示例与代理集成

Pourquoi les robots d'indexation ont-ils besoin d'adresses IP proxy ?

一个简单的Python爬虫示例

如何为爬虫集成代理IP

更实用的爬虫：使用Requests库

选择适合的ipipgo代理套餐

常见问题与解答（QA）

résumés

scénario d'entreprise

Fournisseur professionnel de services d'IP proxy étrangers-IPIPGO

Laisser un commentaire Annuler la réponse

Nous contacter

Suivez-nous sur WeChat

Pourquoi les robots d'indexation ont-ils besoin d'adresses IP proxy ?

一个简单的Python爬虫示例

如何为爬虫集成代理IP

更实用的爬虫：使用Requests库

选择适合的ipipgo代理套餐

常见问题与解答（QA）

résumés

scénario d'entreprise

Fournisseur professionnel de services d'IP proxy étrangers-IPIPGO

Articles connexes

2025年跨境电商代理IP选购避坑：住宅IP与机房IP优劣

2026年独享代理IP推荐：高匿纯净IP，专为社媒运营设计

不限量IP采集爬虫架构：如何设计可持续的大规模采集系统？

cURL工作原理图解：理解这个强大命令行工具的背后机制

检查代理IP地址是否有效：在线工具与手动验证方法

移动网络代理详解：4G/5G热点与代理服务器结合方案

Laisser un commentaire Annuler la réponse

Nous contacter

Suivez-nous sur WeChat