
¿No consigues que funcione el rastreador de Instagram? Prueba este truco salvaje
Cualquiera que haya estado en el negocio de la recopilación de datos sabe que Instagram es como un erizo: parece carne, pero no lo es. ¿Por qué? Mecanismo anti-escalada de la gente a hacer demasiado, no se mueve para bloquear la IP, esta vez si usted no tiene un poco de habilidad, minutos para ser enseñado a ser un ser humano.
Hace poco estuve charlando con un par de amigos que están en el negocio del comercio social y descubrí que todos ellos están utilizando elgrupo de IP proxyEste truco para renovar su vida. Para decirlo sin rodeos es preparar un montón de número de chaleco, esto se bloquea inmediatamente cambiar el siguiente. Sin embargo, los servicios de agente de mercado se mezclan, después de usar siete u ocho encontró queipipgoLa tasa de supervivencia de la casa es realmente insuperable, especialmente esa IP residencial dinámica suya, que fue probada personalmente para funcionar durante tres días seguidos sin caerse.
Las manos hacia abajo, usted puede construir un rastreador vajayjay.
Empecemos por uno contrario al sentido común:¡No corras desnudo con la biblioteca de peticiones!Incluso si añades un UA aleatorio, una sola IP morirá rápido como siempre. Ven a ver una configuración de batalla real:
importar peticiones
from itertools import ciclo
Interfaz API proporcionada por ipipgo
PROXY_API = "https://ipipgo.com/api/get_proxy?type=resident"
def get_proxies():
resp = requests.get(PROXY_API)
return [f"{p['ip']}:{p['puerto']}" for p in resp.json()]
proxy_pool = cycle(get_proxies())
para _ en rango(10):: [p['ip']}:{p['puerto']}
prueba.
proxy = next(proxy_pool)
response = requests.get(
'https://www.instagram.com/api/v1/users/web_profile_info/',
proxies={"http": f "http://{proxy}", "https": f "http://{proxy}"},
timeout=5
)
print("¡Datos en mano!")
except Exception as e.
print(f "Este {proxy} está muerto, pasa al siguiente → {e}")
Aquí viene el punto:Los agentes residenciales tienen 3 veces más probabilidades de sobrevivir que los agentes de salas de servidores.No estoy seguro de si vas a ser capaz de hacerlo, pero estoy seguro de que vas a ser capaz de hacerlo, especialmente si vas a ser capaz de hacerlo por tu cuenta.
Cinco acciones de mal gusto para evitar el bloqueo
1. No sea demasiado regular en su ritmo de rotación de PI-Cambia a intervalos aleatorios, no dejes que la plataforma vea patrones.
2. Cookies individuales por IP-Que los chalecos no lleven la misma ropa.
3. Trabajaba de 3 a 6 de la mañana.--Los umbrales de control de riesgos se ajustarán al alza durante este periodo de tiempo
4. Hacerse pasar por un navegador normal--más seguimiento del ratón y tiempo de permanencia en la página
5. Disponer de una reserva de IP 5%-Se puede sustituir inmediatamente en caso de prohibición imprevista.
| Tipo de agente | Tiempo medio de supervivencia | Escenario |
|---|---|---|
| Centro de datos IP | 2-4 horas | Pruebas a corto plazo |
| IP residencial estática | 12-24 horas | Colección diaria |
| IP residencial dinámica | Conmutación a la carta | arrastrarse masivamente |
Old Driver QA Time
P: ¿Por qué me siguen bloqueando después de usar un proxy?
R: El 90% se debe a que las características de comportamiento están expuestas, compruebe el atributo Sec-Fetch en la cabecera de la petición, ¡no utilice el predeterminado del servidor!
P: ¿Cuántas IP tengo que preparar para que sean suficientes?
R: Si usted recolecta 10.000 datos por día, se recomienda que prepare 200 IPs residenciales dinámicas, y los paquetes de ipipgo tienen justamente esta cantidad.
P: ¿Cómo rompo el CAPTCHA cuando me lo encuentro?
R: ¡No sea rígido! ¡Inmediatamente desactivar la IP actual durante al menos 6 horas, se recomienda para que coincida con la plataforma de codificación para hacer la identificación automática!
Una última palabra de verdad:La IP proxy no es una panacea, pero es imprescindible para todo.. Especialmente como ipipgo con enrutamiento inteligente, puede evitar automáticamente el segmento IP marcado. La última vez, hubo un proyecto para hacer análisis de la competencia, confiando en su piscina IP difícil de espigar 500.000 piezas de datos no se dio la vuelta. Recuerde, en el campo de batalla de datos, proxy IP es su mejor chaleco antibalas.

