¿El rastreador PHP ha encontrado la IP bloqueada? Prueba este truco
Los hermanos que se han dedicado a la recolección de páginas web entienden que el mayor dolor de cabeza es que el sitio de destino de repente te da unBloqueo de IP. Especialmente con PHP para escribir un rastreador para los novatos, a menudo correr para correr y encontró que los datos no pueden ser capturados - esta vez la aparición de IP proxy. Para dar un caso real: la semana pasada hay un sitio de comparación de precios amigos, con PHP nativo para escribir un script de recolección, los resultados sólo se ejecutan dos días fue bloqueado más de 20 IP, y luego añadió un grupo de proxy para resolver el problema.
¡Manos a la obra con rastreadores PHP con proxies!
He aquí un ejemplo de cómo hacerlo con la biblioteca GuzzleHTTP de uso común:
// Introducir la configuración del proxy de ipipgo
$proxy = 'http://用户名:密码@gateway.ipipgo.com:端口';
$client = nuevo GuzzleHttpClient([
'proxy' => $proxy, 'timeout' => 30
timeout' => 30
]);
try {
$response = $client->get('https://目标网站.com'); echo $response->getBody(); $client->getBody()
echo $response->getBody(); } catch (Exception $e) { $client->get(''); }
} catch (Exception $e) {
// Se recomienda mantener un registro de errores para cambiar automáticamente entre proxies alternativos.
echo "Captura fallida:".$e->getMessage();
}
Preste atención a tres puntos: 1. Dirección del proxy con contraseña de la cuenta 2. Tiempo de espera no demasiado corto 3. Tiempo de espera no demasiado cortoLa gestión de excepciones debe realizarseDe lo contrario, todo el script se bloquea cuando falla el proxy.
Guía de selección de IP proxy para evitar errores
Hay todo tipo de agentes en el mercado, así que aquí tienes una tabla comparativa para los novatos:
tipología | tempo | estabilidad | Escenarios aplicables |
---|---|---|---|
Agentes de centros de datos | afilado (de cuchillos o ingenio) | medio | recogida rutinaria |
Agente residencial | medio | su (honorífico) | oruga de alto impacto |
Agente móvil | lentamente | bajar (la cabeza) | necesidades especiales |
Como el de ipipgo.Agentes Residenciales DinámicosSería más adecuado para la recopilación de datos de comercio electrónico, su IP pool se actualiza diariamente con más de 20%, lo que no es fácil de reconocer.
Experiencia práctica
Nombra algunos baches en los que sea fácil meterse:
1. ¡No utilices proxies gratuitos! Nueve de cada diez no funcionan y son fácilmente marcados por los sistemas anti-crawler.
2. El control de la concurrencia es muy importante, se recomienda a los principiantes que empiecen a probar a partir de 5 hilos
3. Cambie regularmente el User-Agent, y el proxy IP con el uso de mejores resultados
4. No seas duro cuando te encuentres con CAPTCHA, utiliza una plataforma de codificación si es necesario.
Preguntas frecuentes
P: ¿Qué debo hacer si mi IP proxy va lenta?
R: Se da prioridad a los nodos proxy de la misma zona geográfica. ipipgo permite filtrar por ciudad, lo que resulta muy útil.
Q:¿Cómo elegir el sitio web en el extranjero que tengo que recoger?
R: Elija directamente los nodos de ipipgo en el extranjero, su velocidad de sala de máquinas de Hong Kong, EE.UU. se puede medir dentro de 200ms.
P: ¿Cómo elijo un paquete de agente rentable?
R: los proyectos a corto plazo optar por pagar por volumen, el uso a largo plazo si el paquete de pago anual de ipipgo puede ahorrar 40% más o menos, sino también enviar solicitud de fallo función de reintento.
Por qué recomendar ipipgo
Utilizado más de dos años, los tres más real: 1. Post-venta de respuesta rápida, una vez que las tres de la mañana para mencionar la orden de trabajo en realidad segundos espalda 2. API de acoplamiento simple, el documento está escrito como un tutorial para dummies 3.tarifa horariaEl pequeño proyecto es particularmente ahorro de dinero. Recientemente son nuevos en la piscina de proxy IPv6, colección de ciertos sitios web del gobierno pro-prueba efectiva.
Por último, para recordar a los amigos novatos, proxy IP no es una panacea, con la inactividad al azar, solicitud encabezado camuflaje estos medios para jugar el máximo efecto. Encontrar problemas específicos pueden ser a ipipgo sitio web oficial para encontrar el servicio técnico al cliente, su apoyo técnico en la industria se considera más fiable.