python爬虫代理ip设置：requests/scrapy全框架教程

代理IP在Python爬虫里的角色

做爬虫的朋友，十有八九都遇到过IP被封的情况。网站的反爬机制就像小区的门禁，同一个IP频繁进出，保安（服务器）肯定要怀疑你。这时候，代理IP就相当于一张临时的、别人的门禁卡，帮你换个身份继续访问，大大降低被封的风险。

对于需要大量、稳定数据采集的业务，比如价格监控、舆情分析、SEO追踪等，使用高质量的代理IP几乎是必备选项。它能帮你模拟来自全球不同地区的正常用户访问，让数据抓取更顺畅、更隐蔽。

Requests库如何设置代理IP

Anfragen an是Python里最常用的HTTP库，设置代理非常简单，主要就是在发起请求时，给Vollmachten参数传入一个代理字典。

Hier ist ein Beispiel für eineipipgo的代理服务为例。假设你已经从ipipgo的后台获取到了一个可用的代理IP和端口，格式可能是http://username:password@gateway.ipipgo:port或单独的IP端口配合账号密码认证。

基础设置方法：

import requests

 假设你的ipipgo代理信息如下
proxy_host = "gateway.ipipgo.com"
proxy_port = "9020"
username = "你的用户名"
password = "你的密码"

 构建代理字典（支持HTTP和HTTPS协议）
proxies = {
    'http': f'http://{username}:{password}@{proxy_host}:{proxy_port}',
    'https': f'http://{username}:{password}@{proxy_host}:{proxy_port}',
}

 或者，如果ipipgo提供的是IP:端口形式的固定代理，且需要认证
 proxies = {
     'http': 'http://12.34.56.78:9010',
     'https': 'http://12.34.56.78:9010',
 }

url = "http://httpbin.org/ip"

try:
     在请求中传入proxies参数
    response = requests.get(url, proxies=proxies, timeout=10)
    print(response.json())   这里会显示代理IP的地址，而不是你本机的IP
except requests.exceptions.ProxyError as e:
    print("代理连接失败:", e)
except Exception as e:
    print("请求发生错误:", e)

Wichtiger Hinweis: ipipgo的代理IP（除TikTok专线外）不能直连，这意味着你需要先具备一个海外的网络环境（例如海外服务器或合规的国际网络通道），然后通过该环境去配置使用ipipgo的代理IP。这是确保服务合规使用的重要前提。

Scrapy框架中配置代理IP的两种核心方式

Scrapy是一个强大的异步爬虫框架，配置代理更灵活，通常有两种主流方法：通过中间件（Middleware）或直接在下载器（Downloader）中设置。

方法一：使用内置的HttpProxyMiddleware（推荐）

这是最标准的方法。你不需要写复杂的中间件，只需在einstellungen.py文件中设置好代理，并在请求的meta中开启即可。

1. ineinstellungen.py中启用代理中间件，并设置代理服务器地址。这里以ipipgo的代理为例：

 settings.py

 启用Scrapy自带的代理中间件
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 400,
}

 设置ipipgo代理的认证信息（如果代理需要账号密码）
IPIPGO_PROXY_USER = '你的用户名'
IPIPGO_PROXY_PASS = '你的密码'
 设置ipipgo代理服务器的地址和端口（示例，请替换为实际值）
IPIPGO_PROXY_SERVER = 'http://gateway.ipipgo.com:9020'

2. 在你的Spider文件中，为每个请求添加代理设置：

 my_spider.py
import scrapy
from urllib.parse import quote

class MySpider(scrapy.Spider):
    name = 'example'
    
    def start_requests(self):
        url = 'http://httpbin.org/ip'
         从settings中读取代理信息
        proxy_user = self.settings.get('IPIPGO_PROXY_USER')
        proxy_pass = self.settings.get('IPIPGO_PROXY_PASS')
        proxy_server = self.settings.get('IPIPGO_PROXY_SERVER')
        
         如果需要认证，构建带认证信息的代理URL
        if proxy_user and proxy_pass:
             对用户名密码进行URL编码，防止特殊字符问题
            auth = f"{quote(proxy_user)}:{quote(proxy_pass)}@"
            proxy_url = proxy_server.replace('://', f'://{auth}')
        else:
            proxy_url = proxy_server
            
         创建请求，并通过meta字典设置代理
        yield scrapy.Request(url, 
                             meta={'proxy': proxy_url},
                             callback=self.parse)
    
    def parse(self, response):
        self.logger.info(f"当前使用的代理IP是: {response.text}")

方法二：编写自定义下载器中间件

如果你需要对代理进行更精细的控制，比如实现代理池的自动轮换、失败重试等，自定义中间件是更好的选择。

 middlewares.py
import random
from urllib.parse import quote

class IpIpGoProxyMiddleware:
    """一个简单的ipipgo代理池中间件示例"""
    
    def __init__(self, proxy_list):
         proxy_list 可以是一个从ipipgo API获取的动态IP列表
         示例：['http://user:pass@ip1:port', 'http://user:pass@ip2:port']
        self.proxies = proxy_list
    
    @classmethod
    def from_crawler(cls, crawler):
         这里可以从文件、数据库或API初始化代理列表
         为了示例，我们使用一个静态列表
        proxy_list = [
            'http://你的用户名:你的密码@gateway.ipipgo.com:9020',
             可以添加更多代理...
        ]
        return cls(proxy_list)
    
    def process_request(self, request, spider):
         随机选择一个代理（实际应用中可根据策略选择）
        if self.proxies and not request.meta.get('proxy'):
            proxy = random.choice(self.proxies)
            request.meta['proxy'] = proxy
            spider.logger.debug(f'使用代理: {proxy}')

然后在einstellungen.py中启用这个自定义中间件：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.IpIpGoProxyMiddleware': 750,
     确保其顺序在HttpProxyMiddleware之前
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 400,
}

如何选择适合你的ipipgo代理产品？

ipipgo提供了多种代理解决方案，针对不同的爬虫场景，选择对的产品能让效率翻倍。

你的主要需求	Empfohlene Produkte	Zentrale Stärken
大规模数据采集，需要频繁更换IP，防止被封（如电商爬虫、公开数据收集）	Dynamische Wohnungsvermittler	9000万+真实住宅IP池，覆盖220+国家，高度匿名，按流量计费，适合高频轮换场景。
需要长期稳定使用同一个IP，进行需要登录或保持会话的操作（如社交媒体管理、账号养号）	Statische Wohnungsvermittler	50万+纯净住宅IP，长期稳定，99.9%可用性，精准城市定位，适合粘性会话。
专注于TikTok相关数据抓取、账号运营或直播	TikTok-Lösungen	多国原生纯净IP，独享高速通道，支持一键直连，为TikTok业务深度优化。
需要直接抓取Google搜索结果，进行SEO分析或竞品监控	SERP-API	专为Google设计，毫秒级响应，AI模拟真实搜索行为，直接返回结构化数据，省去解析烦恼。
企业级定制化数据采集需求，目标网站复杂，反爬强	Web-Crawling-Dienst	提供从IP资源到智能解析的一站式解决方案，99.9%采集成功率，企业省心之选。

对于大多数Python爬虫开发者，如果是从零开始且需求多变，动态住宅代理（标准套餐）是一个很好的起点，它灵活且成本可控。

实战中常见问题与解决方案（QA）

Q1: 设置了代理，但爬虫还是被网站封了，为什么？

A1: 代理IP不是“免死金牌”。除了IP，网站还会检测其他行为特征，比如：
1. 请求频率过高： 即使IP在变，一秒内发几十个请求也不正常。需要在代码中合理添加延时（如time.sleep(random.uniform(1,3))).
2. 请求头（User-Agent）过于单一： 要模拟真实浏览器，轮换User-Agent。
3. Cookie和会话行为： 某些网站需要模拟完整的浏览会话。可以配合使用requests.Session()或Scrapy的Cookie中间件。
4. 代理IP质量： 免费的或劣质代理IP可能已被目标网站拉黑。使用像ipipgo这样提供高质量纯净住宅IP的服务商，能从源头降低被封概率。

Q2: 使用ipipgo代理后，请求速度变慢了怎么办？

A2: 这是正常现象，因为数据需要经过代理服务器中转。可以通过以下方式优化：
1. 选择地理位置上靠近目标网站或你服务器的代理节点： ipipgo支持国家/城市级定位，尽量选择离数据源近的位置。
2. 检查本地网络到ipipgo网关的连接： 确保你的海外服务器到ipipgo网关的网络是通畅的。
3. 在Scrapy中调整并发请求数（CONCURRENT_REQUESTS）： 适当降低并发，避免对代理服务器造成过大压力导致排队。
4. 考虑使用ipipgo的静态住宅代理或跨境专线： 对于对稳定性和延迟要求极高的业务，这些产品能提供更优质的网络通道。

Q3: 如何处理代理IP失效或认证失败的错误？

A3: 在代码中必须做好异常处理。
1. 捕获特定异常： 在Requests中捕获requests.exceptions.ProxyError, requests.exceptions.ConnectTimeout.
2. 实现重试机制： Scrapy有内置的重试中间件（RETRY_TIMES），也可以自定义。在重试前，最好能更换一个代理IP。
3. Verwenden Sie den Proxy-Pool: 就像上面的自定义中间件示例，维护一个代理IP列表，失败后自动切换到下一个。ipipgo的动态代理API可以方便地获取新鲜IP来构建代理池。

 一个简单的requests重试与更换代理示例
import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

def get_with_retry_and_proxy(url, proxy_list, max_retries=3):
    session = requests.Session()
    retries = Retry(total=max_retries, backoff_factor=0.5)
    session.mount('http://', HTTPAdapter(max_retries=retries))
    session.mount('https://', HTTPAdapter(max_retries=retries))
    
    for proxy in proxy_list:
        try:
            response = session.get(url, proxies={'http': proxy, 'https': proxy}, timeout=15)
            return response   成功则返回
        except (requests.exceptions.ProxyError, requests.exceptions.ConnectTimeout) as e:
            print(f"代理 {proxy} 失败，尝试下一个。错误: {e}")
            continue
    raise Exception("所有代理均尝试失败")

 使用函数
proxy_pool = ['http://user:pass@proxy1.ipipgo:port', 'http://user:pass@proxy2.ipipgo:port']
try:
    resp = get_with_retry_and_proxy('http://example.com', proxy_pool)
    print(resp.status_code)
except Exception as e:
    print(e)

Q4: 我的爬虫需要处理大量任务，如何管理代理IP的成本？

A4: ipipgo的动态住宅代理按流量计费，控制成本的关键在于高效使用：
1. 优化请求： 只抓取必要的数据，避免下载大文件（如图片、视频）除非必要。
2. 设置请求超时和重试上限： 避免因个别网站响应慢而长期占用连接，浪费流量。
3. 监控流量使用： 定期查看ipipgo后台的流量统计，分析使用模式。
4. 针对不同任务使用不同产品： 对时效性要求不高的低频任务，可以用动态代理；对需要稳定IP的核心任务，则用静态代理。合理搭配，性价比最高。

am Ende schreiben

给Python爬虫配上代理IP，就像给探险家一张详细的地图和多种伪装。选择像ipipgo这样可靠的服务商，意味着你的“地图”更精准，“伪装”更有效。核心在于理解你的业务场景（是需要频繁换IP，还是长期稳定），然后选择对应的产品（动态或静态住宅代理等），再结合合理的请求策略和健壮的异常处理代码。

记住，技术是工具，合规是前提。使用代理IP时，务必遵守目标网站的robots.txt协议及相关法律法规，将技术用于正当的数据获取与分析，才能行稳致远。

python爬虫代理ip设置：requests/scrapy全框架教程

代理IP在Python爬虫里的角色

Requests库如何设置代理IP

Scrapy框架中配置代理IP的两种核心方式

如何选择适合你的ipipgo代理产品？

实战中常见问题与解决方案（QA）

am Ende schreiben

Geschäftsszenario

Professioneller ausländischer Proxy-IP-Dienstleister-IPIPGO

Kontakt

Folgen Sie uns auf WeChat

代理IP在Python爬虫里的角色

Requests库如何设置代理IP

Scrapy框架中配置代理IP的两种核心方式

如何选择适合你的ipipgo代理产品？

实战中常见问题与解决方案（QA）

am Ende schreiben

Geschäftsszenario

Professioneller ausländischer Proxy-IP-Dienstleister-IPIPGO

Ähnliche Artikel

爬虫ip代理池怎么选最优？自建采购混合方案成本对比

香港原生住宅ip购买平台对比：延迟库存与价格分析

tiktok直播网络专线费用分析：预算有限选性价比最高

socks5代理海外静态ip购买：按国家筛选精准匹配方法

双isp住宅ip服务器推荐：远程桌面矩阵运营高纯净方案

海外http代理静态方案推荐：低延迟高可用长期稳定选择

Kontakt

Folgen Sie uns auf WeChat