
Le enseña cómo usar pip para instalar la herramienta de resolución de IP proxy.
Recientemente, una gran cantidad de amigos de recopilación de datos preguntó Lao Zhang, ¿por qué escribieron el rastreador está siempre bloqueado IP, esta cosa no es realmente complicado, la clave para el programa para llevar una "ropa de protección". Hoy vamos a fastidiar cómo utilizar pip para instalar los que pueden resolver automáticamente la biblioteca IP proxy, por cierto, un proveedor de servicios proxy fiable.
¿Qué tengo que preparar antes de cargar el almacén?
Primero tienes que asegurarte de que lo tienes en tu ordenador.Python 3.6 y superiorMantén pulsado win+R y escribe cmd para entrar, y escribe en la ventana negra.python --versionPodrás ver la versión. Si la versión es demasiado antigua, te recomendamos que vayas directamente al sitio web oficial para obtener una nueva versión.
Por ejemplo, para instalar la biblioteca requests
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
Tenga en cuenta que aquí se utiliza el Tsinghua Mirror Source, y la velocidad de descarga puede ser mucho más rápida. Si recibe un mensaje de que la versión de pip es antigua, ejecutepython -m pip install --upgrade pipMejora hacia abajo.
Triple hacha de la resolución de IP proxy en el mundo real
Aquí hay tres bibliotecas que he probado y he encontrado que funcionan bien, vamos a centrarnos en la primera:
| nombre de la biblioteca | especificidades | Escenarios aplicables |
|---|---|---|
| peticiones-html | Autoparse | Captura sencilla de páginas web |
| scrapy | Marco de nivel profesional | Proyectos a gran escala |
| pyquery | Sintaxis de jQuery | Análisis de páginas complejas |
Fragmento de código actual (recuerde sustituirlo por su propio proxy)
from peticiones_html import HTMLSession
proxies = {
'http': 'http://user:password@ipipgo-proxy.com:9020',
https': 'http://user:password@ipipgo-proxy.com:9020'
}
sesión = HTMLSession()
response = session.get('https://目标网站', proxies=proxies)
print(response.html.find('title'))
Concéntrate en esto.Parámetros de los proxiesAquí se utiliza el formato de proxy de tunelización proporcionado por ipipgo. Sus proxies no tienen que cambiar de IP manualmente, lo que es especialmente amigable para los novatos.
Directrices para el desminado de trampas comunes
P: ¿Qué debo hacer si siguen apareciendo errores al cargar la biblioteca?
R: Primero compruebe que la red no tiene ningún proxy abierto, a veces se abre el proxy global en lugar de conectarse a la fuente pip. Se recomienda apagar el software proxy temporalmente y volver a intentarlo.
P: ¿El código se ejecuta pero no se obtienen datos?
R: El 80% de las IP proxy son reconocidas por el sitio web de destino. Esta vez para cambiarAgentes de alta calidadcomo los paquetes exclusivos de IP de ipipgo, en los que cada IP es una IP residencial real que ha sido utilizada por una persona real.
P: ¿Cómo puedo saber si un poder está en vigor?
R: Añada una URL de prueba al código:session.get('http://httpbin.org/ip')para ver si la IP devuelta es una IP proxy.
¿Por qué recomienda ipipgo?
No en vano acabas bloqueando ipipgo después de usar el servicio proxy durante más de tres años:
- Sala de servidores doméstica autoconstruida, la latencia puede controlarse en 50 ms.
- Apoyo al pago por uso, los recién llegados obtienen una prueba gratuita de tráfico de 1G
- Oferta exclusivaMecanismo de reintento de falloCambio automático de IP
Mención especial a suFunción de enrutamiento inteligente, que puede coincidir automáticamente con el nodo proxy donde se encuentra el sitio web de destino. Por ejemplo, si desea recopilar sitios web japoneses, el sistema asignará automáticamente la IP de exportación de la sala de servidores de Tokio.
Actualizar Consejos de juego
Si está realizando un proyecto de recogida a largo plazo, se recomienda escribir la configuración del proxy como un archivo de configuración independiente:
config.py
PROXY_CONFIG = {
'proxy_host': 'ipipgo-proxy.com',
'proxy_port': 9020,
'password': 'tu contraseña'
}
A continuación, haga referencia a esta configuración en el programa principal, por lo que es conveniente cambiar el proveedor de servicios proxy más tarde. Por cierto, el fondo de ipipgo puede ver las llamadas a la API en tiempo real, lo que es especialmente útil para la solución de problemas.
Por último, me gustaría recordar a los novatos no utilizar agentes libres para barato. Antes de que un cliente codicioso para barato, los resultados de la recopilación de todos los datos falsos, y finalmente tienen que volver a trabajar para rehacer. Cosas profesionales o para ipipgo tales proveedores de servicios profesionales fiables, ahorrar tiempo para tomar dos proyectos más lo que están de vuelta.

