
¿Los datos de captura de PHP siempre se bloquean? Pruebe este truco
Recientemente, muchos hermanos me pidió que utilizara PHP curl para agarrar los datos del sitio de destino siempre está bloqueado IP, ansioso por saltar directamente a los pies. Esto es algo que también se encontró hace tres años, y más tarde se encontró que el uso de proxy IP es como dar el programa que llevaba un chaleco, hoy en día para romper la puerta de entrada a los chicos.
Averiguar qué pasa con las IP proxy
Proxy IP es equivalente a su solicitud de red para encontrar un actor sustituto, como si vas al supermercado a comprar cigarrillos siempre son reconocidos por el jefe, cambiar a un amigo para ayudarle a ir a comprar en él. Hay tres tipos de proxies en el mercado:
Proxy Transparente - el equivalente a llevar a un amigo y anunciarte (revelando tu IP real)
Proxy anónimo - el amigo va solo pero lleva tu ropa (oculta la IP pero tiene características de proxy)
Proxy altamente anónimo - el amigo va completamente disfrazado de transeúnte (recomendado)
¡Aquí está el punto! Tienes que elegir a tu agente.ipipgoEste tipo de alijo alta especializada de agentes, su piscina IP de origen es grande, cada solicitud al azar cambiar la armadura de caballo, el sitio de destino simplemente no puede sentir la ley.
Te enseña cómo configurar un proxy para curl.
Tome la colección del precio de una plataforma de comercio electrónico, por ejemplo, no utilice el código del agente es largo así:
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "https://目标网站.com");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$output = curl_exec($ch);
ademásipipgoPost-agencia:
// Información del proxy desde el backend ipipgo
$proxy = '123.123.123.123:8888';
$auth = 'nombre de usuario:contraseña';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "https://目标网站.com");
curl_setopt($ch, CURLOPT_PROXY, $proxy);
curl_setopt($ch, CURLOPT_PROXYUSERPWD, $auth); curl_setopt($ch, CURLOPT_PROXYUSERPWD, $auth);
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // establecer un tiempo de espera corto
Tenga en cuenta que debe sustituir el nombre de usuario y la contraseña poripipgoEl backend te da información de autenticación, y su método de verificación de proxy es especialmente amigable para los novatos.
Guía para evitar el pozo: 5 errores comunes de los novatos
1. IP proxy utilizada repetidamente: la misma solicitud continua de IP es fácil de identificar, se recomienda que cada solicitud de una IP diferente
2. El tiempo de espera está configurado demasiado largo: se recomienda que no supere los 10 segundos y, si los supera, cambiar la siguiente dirección IP.
3. Olvídate de la gestión de excepciones: después de curl_exec comprobar si $output es null
4. Cabecera UA no camuflada: recuerde configurar la UA común del navegador con curl_setopt
5. Ignorar certificados HTTPS: añada esta línea para evitar atascos en la validación de certificados
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
Control de calidad práctico: tú preguntas, yo respondo
P: ¿Qué puedo hacer respecto a la lentitud de la velocidad IP del proxy?
R: PreferidoipipgoLa línea BGP doméstica, la latencia medida puede controlarse dentro de 200ms
P: ¿Cómo puedo comprobar si el agente está en vigor?
R: Visite http://httpbin.org/ip para ver si la IP devuelta es una IP proxy
P: ¿Qué debo hacer si me encuentro con un error 403?
R: tres pasos: 1. comprobar si la IP está bloqueada 2. cambiar el User-Agent 3. reducir la frecuencia de recogida
Juego de actualización: cambio automático de pools IP
gasto o desembolsoipipgoAPI para obtener IPs dinámicamente, obtenga un script de gestión de pool de IPs:
// Obtener el pool de IPs
$ip_list = json_decode(file_get_contents('https://api.ipipgo.com/getips?num=20'));
// Elige una IP aleatoria
$rand_key = array_rand($ip_list);
$current_ip = $ip_list[$rand_key]['ip'].' :'.$ip_list[$rand_key]['puerto'];
Se recomienda cambiar la IP cada 5 veces de recogida, con multi-threading puede mejorar la eficiencia de 10 veces. Pero prestar atención a la estrategia anti-escalada del sitio de destino, no hacer que los servidores de las personas cuelgan.
Por último regañar a una palabra, elegir el servicio de proxy no seas codicioso para barato, antes de utilizar un proxy gratuito, el resultado de la recopilación de datos son todos los sitios de phishing insertados en el anuncio. Ahora utiliceipipgoLa estabilidad del paquete exclusivo de PI es realmente de primera, y el corazón del proyecto es sólido.

