
Te enseñamos a utilizar PHP para capturar datos sin bloquear el número de
Crawler amigos entender que el sitio web mecanismo anti-escalada es cada vez más estricta. La semana pasada mi colega utilizó PHP para escribir un script de recolección, los resultados acaba de ejecutar media hora IP fue bloqueado. En este momento es necesarioRotación de IP proxyEsto es un regalo del cielo, hoy hablamos de cómo utilizar el servicio de proxy de ipipgo al script PHP para continuar la vida.
// Configuración básica del proxy
$proxy = '123.123.123.123:8888';
$context = stream_context_create([
'http' => [
'proxy' => "tcp://$proxy",
'request_fulluri' => true
]
]);
$content = file_get_contents('URL de destino', false, $context);
Cambios inteligentes de IP en rastreadores PHP
No basta con establecer un proxy fijo, hay que conseguir unGrupo de IP dinámicas. Aquí recomendamos utilizar la API de ipipgo para obtener un gran número de proxies, y su tasa de supervivencia IP puede alcanzar más de 95%. La operación específica se divide en tres pasos:
- Regístrese para obtener una cuenta ipipgo y recibir 500 IP de prueba
- Llame a su API para obtener la lista más reciente de proxies
- Seleccionar aleatoriamente una IP para cada solicitud
// Obtener ejemplo de proxy pool ipipgo
$api_url = "https://api.ipipgo.com/get?format=json&key=你的密钥";
$ip_list = json_decode(file_get_contents($api_url), true);
// Elige un proxy aleatorio
$rand_proxy = $ip_list['datos'][array_rand($ip_list['datos'])];
¿Qué hacer cuando se encuentra con un captcha? Prueba con esto.
Aunque utilices un proxy, algunos sitios seguirán apareciendo con un captcha. Este es el momento deControlar la frecuencia de las visitasRecomendaciones:
| Tipo de sitio web | Intervalo recomendado | concurrencia |
|---|---|---|
| estación de información general | 3-5 segundos | 5 |
| Plataforma de comercio electrónico | 10-15 segundos | 2 |
| redes sociales | 20-30 segundos | 1 |
Conjuntamente con ipipgofacturación volumétricase puede configurar una política de cambio automático de IP. Probado, su velocidad de respuesta es aproximadamente 40% más rápido que los proxies ordinarios, y la tasa de éxito del procesamiento de CAPTCHA se puede mejorar mucho.
Preguntas frecuentes Botiquín de primeros auxilios
P: ¿Qué debo hacer si mi IP proxy falla de repente?
R: Se recomienda utilizar la función de detección inteligente de ipipgo, su API devuelve IPs con marcadores de tiempo de supervivencia, haz un ping antes de utilizarla.
P: ¿Qué puedo hacer para reducir la velocidad de rastreo?
R: Compruebe la ubicación del servidor proxy, seleccione el nodo en la región donde se encuentra el sitio web de destino. ipipgo tiene más de 30 nodos de países para elegir, recuerde elegir el geográficamente próximo
P: ¿Fallo del proxy web HTTPS?
R: Añada la configuración ssl en stream_context o cambie al método Curl:
$ch = curl_init();
curl_setopt($ch, CURLOPT_PROXY, $proxy);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
Solución mejorada: mantenimiento automatizado de grupos de IP
Para rastreadores de larga duración, se recomienda hacer unMecanismo de comprobación de la salud de IP. Utiliza la API de ipipgo con una tarea temporizada para actualizar el pool de IPs cada hora. Compartiendo una lógica de script auto-alojado aquí:
- Obtener una nueva lista de IP cada 60 minutos
- Rechazo de agentes que responden con un tiempo de espera
- Registrar el porcentaje de éxito de cada PI
- Priorizar el uso de PI con un alto índice de éxito
Esto es para bajar, tenemos un proyecto corrió durante 7 días sin ser bloqueado, la estabilidad de ipipgo es realmente superior. Ahora envían nuevos usuarios 500 IP de prueba, que participan en los rastreadores pueden ir a probar.

