A, ¿por qué tirar el proxy IP, el viejo bloqueado cómo hacer ah
Recientemente, muchos hermanos están pidiendo, con PHP para escribir un rastreador es siempre el sitio de destino para bloquear la IP cómo hacerlo. Esta cosa con el juego fue el número de prohibición como, siempre se utiliza un número de copias de cepillo, el sistema no bloquea usted bloquea quién? Esta vez usted tiene que utilizar el proxy IP este plug-in - oh no, es la herramienta.
Para dar un caso real: la semana pasada hay un sitio web de comparación de precios amigo, cada hora para capturar una plataforma de comercio electrónico 50.000 veces los datos. Con sus propios servidores directamente captar, los resultados de menos de dos horas IP en la lista negra. Más tarde cambióGrupo proxy exclusivo para ipipgoHe estado trabajando en esto durante un tiempo, y he configurado un cambio automático de IP para cada 50 solicitudes, y ha estado funcionando de manera constante durante una semana sin ningún contratiempo.
En segundo lugar, ¿cómo elegir la IP proxy? No sólo encontrar un puede utilizar
Existen tres tipos de IP proxy en el mercado, utilicemos la tabla para que quede claro:
tipología | especificidades | Escenario |
---|---|---|
Agente transparente | La otra parte puede ver la IP real | Es básicamente inútil. |
Agente anónimo | Ocultar la IP real pero exponer el proxy en uso | Adquisición general de datos |
Agentes High Stash | Ocultar completamente toda la información | Lugares difíciles contra la escalada |
se parecen aHigh Stash Proxy para ipipgoLa prueba real en la captura de una gran plataforma social, la tasa de éxito es mayor que el proxy ordinaria 37%. la atención se centra en su piscina IP de la familia se actualiza rápidamente, muchos son sección no revelada de la sala de servidores IP, no es fácil de ser identificado.
En tercer lugar, el combate práctico contra el código PHP
Utilicemos la extensión cURL más utilizada para demostrarlo. Observe los dos parámetros clave: CURLOPT_PROXY y CURLOPT_PROXYUSERPWD.
$ch = curl_init();
$proxy = 'gateway.ipipgo.net:9021'; //dirección del servidor proxy
$auth = 'username:password'; //información de autenticación obtenida en el backend de ipipgo
curl_setopt_array($ch, [
CURLOPT_URL => 'https://目标网站.com/api',
CURLOPT_PROXY => $proxy,
CURLOPT_PROXYUSERPWD => $auth,
CURLOPT_TIMEOUT => 30,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_SSL_VERIFYPEER => false //Entornos de prueba pueden desactivar la validación de certificados.
]);
$response = curl_exec($ch);
if(curl_errno($ch)){
//Se recomienda guardar aquí un registro de errores
echo 'Error de rastreo: '.curl_error($ch); }
}
curl_close($ch); }
Aquí está el truco.configuración del tiempo de esperaMuchos novatos no establecen TIMEOUT, por lo que simplemente esperan cuando el agente no puede conectarse. Se recomienda establecer 10-60 segundos de acuerdo a las necesidades del negocio, y cambiar al siguiente agente directamente después del tiempo de espera.
IV. Guía para evitar escollos: un resumen de la experiencia de sangre y lágrimas
1. No utilices agentes libres.: Probado el año pasado, la disponibilidad media de los proxies gratuitos es inferior a 15%, y existe riesgo de fuga de datos
2. Recuerde añadir el mecanismo piloto: se propone escribir algo así.
1TP4Intento = 3;
while($retry--){
//Ejecutar el código de petición
if(success) break; sleep(2); //después del fallo espera 2 segundos e inténtalo de nuevo.
sleep(2); //tras fallo espera 2 segundos e inténtalo de nuevo
}
3. Preste atención al control de la concurrencia: no piense que con el uso de proxies puede hacer lo que quiera, ¡se recomienda controlar entre 5 y 10 peticiones por segundo!
V. Tiempo de control de calidad: un escollo habitual para los principiantes
P: ¿Qué debo hacer si mi IP proxy no funciona?
R: Fenómeno normal, todos los proxies tienen fecha de caducidad. Se recomienda utilizar la API de ipipgo para obtener la última IP dinámicamente, han proporcionado código de ejemplo.
P: ¿El código de estado devuelto es siempre 407?
R: Se trata de un fallo de autenticación del proxy, compruebe si el nombre de usuario y la contraseña son correctos. ¡Tenga en cuenta que la contraseña de ipipgo se genera dinámicamente y debe ser readquirida cada mes!
P: ¿Cómo puedo comprobar si el proxy funciona realmente?
R: Puede utilizar esta interfaz de prueba:
curl_setopt($ch, CURLOPT_URL, 'http://httpbin.org/ip');
El campo de origen devuelto debería mostrar la IP del proxy, no tu IP local.
¿Por qué recomendar ipipgo?
Después de utilizar siete u ocho proveedores de proxy, finalmente elegí ipipgo por tres razones principales:
1. Suficientemente rápido para responder, con un retraso medio de 200 ms o menos
2. El servicio de atención al cliente es muy técnico y puede ayudar a depurar el código.
3. Planes de precios flexibles, con paquetes de 5 dólares al día para pruebas a pequeña escala.
Especialmente suFunción de enrutamiento inteligenteLo más importante es que se puede elegir el mejor nodo de forma automática. La semana pasada para capturar los datos de un sitio web del gobierno, directamente tomar su canal de línea de gobierno, la tasa de éxito de 43% se disparó a 91%.
Por último recordar: proxy IP no es una panacea, con la rotación de User-Agent, solicitar el control de frecuencia con el fin de jugar el máximo efecto. Hay alguna pregunta específica bienvenida a ipipgo sitio web oficial para encontrar el servicio al cliente técnico persistente, que están en línea las 24 horas del día, más detallada de lo que escribí aquí.