
Cuando los rastreadores se encuentran con Amazon: ¿por qué tu cuenta está siempre bloqueada?
Hacer la recopilación de datos de comercio electrónico de edad Zhang recientemente tuvo un dolor de cabeza, escribió un programa de rastreo en Amazon corrió menos de tres días, la cuenta fue bloqueada a todos. Esta cosa es como un juego de whack-a-mole - sólo hay que poner en una nueva cuenta, y luego el CAPTCHA aparece más tarde. De hecho, el núcleo del problema radica enreconocimiento de huellas dactilares en redOn, el sistema de control de viento de Amazon es más sensible que el control de acceso de tu barrio, y el acceso frecuente a la misma IP activa inmediatamente una alarma.
He aquí un caso real: un vendedor de productos para madres y bebés necesita comparar precios en tiempo real, utilizando la red de su propia oficina para capturar datos. Más tarde, pasó a utilizar la rotación de IP proxy residencial, y el ciclo de supervivencia se amplió de 2 horas a 3 semanas. Esto demuestra queLa calidad de la PI determina directamente el éxito o el fracaso de la adquisiciónEs como ir al supermercado con caras diferentes para que no se fijen en ti los guardias de seguridad.
Tres ejes de la adquisición de conformidad
Empecemos por los tres principios más importantes (tome nota):
| fórmula | falsa demostración | manejo correcto |
| Frecuencia de solicitud | 10 solicitudes por segundo | Intervalos aleatorios de 3-8 segundos |
| Correlación IP | 50 cuentas comparten 1 IP | 1 IP corresponde a 1 cuenta |
| Simulación del comportamiento | Agente de usuario fijo | Generación aleatoria de huellas dactilares del navegador |
Centrándonos en la pieza IP, los servicios proxy del mercado son desiguales. Algunos proveedores de servicios dan IPs que hace tiempo que están marcadas como "negras" por Amazon, y usarlas es como ir a la ventanilla del banco con uniforme de presidiario. Hemos probado los proxies residenciales de ipipgo, y sus pools de IPs tienen una característica - tienen muchas IPs, pero no todas tienen las mismas IPs.Cada IP tiene atributos reales de banda ancha domésticaEste punto es especialmente crítico para el rebobinado.
Configuración práctica de proxies
Aquí tienes un ejemplo en Python (no lo copies directamente, mira en la sección de comentarios para cambiarlo):
importar peticiones
from itertools import ciclo
Lista de proxies del backend ipipgo
lista_proxy = [
'http://user:pass@gateway.ipipgo.com:30001',
'http://user:pass@gateway.ipipgo.com:30002', ...
... Preparar al menos 20
]
proxy_pool = cycle(proxy_list)
url = 'https://www.amazon.com/dp/B08KL9xxxx'
para _ en rango(100)::
try: proxy = next(proxy_pool)
proxy = siguiente(pool_proxy)
response = requests.get(url,
proxies={"http": proxy, "https": proxy}, headers={'User-Agent': get_random_user_agent('https': proxy) }, }
headers={'User-Agent': get_random_user_agent()}, implemente usted mismo una generación aleatoria de UA
timeout=10
)
Procesando los datos de la página...
except Exception as e.
print(f "Fallo en la petición con {proxy}, siguiente", e)
Preste atención a dos baches: en primer lugar, no intente utilizar un proxy de centro de datos barato, Amazon puede identificar el segmento de IP de la sala de servidores; en segundo lugar, recuerde añadir el código en el archivohibernación aleatoriani una operación humana puede funcionar 24 horas al día sin pestañear.
5 preguntas que seguro se hará
P: ¿Es seguro el 100% con una IP proxy?
R: Al igual que el uso del cinturón de seguridad al conducir, reduce el riesgo, no lo elimina. Se recomienda trabajar con navegador de huellas + estrategia de elevación de cuenta
P: ¿Cómo rompo el CAPTCHA cuando me lo encuentro?
¡R: Detenga inmediatamente la recolección de la IP actual, el fondo de ipipgo puede aislar automáticamente la IP problemática, cambie a una nueva IP y espere 24 horas e intente de nuevo!
P: ¿Cuántas IP se necesitan para ser suficientes?
R: Mira la escala de colección, la colección diaria de miles de datos con rotación dinámica IP en la línea, si se trata de una colección a gran escala, se recomienda comprar una IP residencial estática
P: ¿Por qué recomienda ipipgo?
R: Su pool de IP tiene tres ventajas principales: 1) redes residenciales de personas reales 2) desconexión automática para cada sesión 3) soporte para filtrar operadores por número ASN
P: ¿Qué puedo recoger que me pise los pies?
R: los datos de precios es relativamente seguro, no toque los comentarios de los usuarios y la información personal, tenga cuidado de comer DSAR quejas (ver la política de Amazon)
Diga la verdad.
He visto a demasiada gente pensar que la adquisición de conformidad es sencilla, pensando que pueden hacer lo que quieran consiguiendo una IP proxy. En realidad es uningeniería de sistemasLo primero que quiero hacer es simular una persona real, de la calidad de IP a la trayectoria de solicitud. Recientemente, ayudé a un vendedor de 3C para hacer el programa, con el servicio de proxy de ipipgo con la optimización de la trayectoria de la petición, funcionamiento continuo y estable durante 7 meses sin vuelco.
Un último recordatorio: ¡no te líes con las vinculaciones de cuentas! Asegúrese de utilizar cuentas de tienda diferentes.Diferentes segmentos IP + diferentes entornos de dispositivosEsto es más importante que la recogida en sí. Al fin y al cabo, si pierdes los datos, puedes volver a recopilarlos, pero si te bloquean la cuenta, tienes que empezar de nuevo.

