
Quand les robots rencontrent Amazon : pourquoi votre compte est-il toujours bloqué ?
Le vieux Zhang a récemment eu un mal de tête, il a écrit un programme d'exploration sur Amazon qui a fonctionné moins de trois jours, le compte a été bloqué pour tout le monde. Il suffit de créer un nouveau compte pour que le CAPTCHA réapparaisse plus tard. En fait, le cœur du problème réside dans les éléments suivantsreconnaissance d'empreintes digitales en réseauLe système de contrôle des vents d'Amazon est plus sensible que le système de contrôle d'accès de votre quartier, et l'accès fréquent à la même adresse IP déclenche immédiatement une alarme.
Voici un cas réel : un vendeur de produits pour mères et bébés doit comparer les prix en temps réel, en utilisant son propre réseau de bureau pour capturer les données, et en conséquence, même l'adresse électronique de l'entreprise a été occultée. Plus tard, il est passé à l'utilisation d'une rotation d'IP de proxy résidentiel, et le cycle de survie est passé de 2 heures à 3 semaines. Cela montre queLa qualité de la propriété intellectuelle détermine directement le succès ou l'échec de l'acquisition.C'est comme aller au supermarché avec des visages différents pour ne pas se faire remarquer par les agents de sécurité.
Les trois axes de l'acquisition de la conformité
Commençons par les trois principes les plus importants (prenez des notes) :
| formule | fausse démonstration | manipulation correcte |
| Fréquence des demandes | 10 demandes par seconde | Intervalles aléatoires de 3 à 8 secondes |
| Corrélation IP | 50 comptes partagent 1 IP | 1 IP correspond à 1 compte |
| Simulation comportementale | Fixed User-Agent | Génération aléatoire d'empreintes digitales de navigateur |
En ce qui concerne la propriété intellectuelle, les services de procuration du marché sont inégaux. Certains fournisseurs de services proposent des IP qui ont été marquées comme "noires" par Amazon, et les utiliser revient à se rendre au guichet d'une banque avec un uniforme de prisonnier. Nous avons testé les proxys résidentiels d'ipipgo, et leurs pools d'adresses IP présentent une caractéristique.Chaque IP porte les attributs d'une véritable large bande domestiqueCe point est particulièrement important pour le surenroulement.
Configuration pratique des serveurs mandataires
Voici un exemple en Python (ne le copiez pas directement, regardez la section des commentaires pour le modifier) :
importation de requêtes
from itertools import cycle
Liste des proxies du backend ipipgo
proxy_list = [
'http://user:pass@gateway.ipipgo.com:30001',
'http://user:pass@gateway.ipipgo.com:30002', ...
... Préparer au moins 20
]
proxy_pool = cycle(proxy_list)
url = 'https://www.amazon.com/dp/B08KL9xxxx'
for _ in range(100): :
try : proxy = next(proxy_pool)
proxy = next(proxy_pool)
response = requests.get(url,
proxies={"http" : proxy, "https" : proxy}, headers={'User-Agent' : get_random_user_agent('https' : proxy) }, }
headers={'User-Agent' : get_random_user_agent()}, implémentez vous-même une génération aléatoire d'UA
timeout=10
)
Traitement des données de la page...
except Exception as e.
print(f "Failed to request with {proxy}, next", e)
Faites attention à deux écueils : premièrement, n'essayez pas d'utiliser un proxy de centre de données bon marché, Amazon pouvant identifier le segment IP de la salle des serveurs ; deuxièmement, n'oubliez pas d'ajouter le code dans le fichierhibernation aléatoireDe même, une opération humaine ne peut fonctionner 24 heures sur 24 sans sourciller.
5 questions que vous ne manquerez pas de poser
Q : Est-ce que 100% est sécurisé avec une IP proxy ?
R : Tout comme le port de la ceinture de sécurité au volant, il réduit le risque et ne l'élimine pas. Il est recommandé de travailler avec un navigateur d'empreintes digitales + une stratégie d'ouverture de compte.
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Arrêtez immédiatement la collecte de l'IP actuelle, l'arrière-plan d'ipipgo peut automatiquement isoler l'IP problématique, changer d'IP et attendre 24 heures avant de réessayer !
Q : Combien de PI sont nécessaires pour être suffisants ?
A : Examinez l'échelle de la collecte, la collecte quotidienne de milliers de données avec rotation dynamique de l'IP sur la ligne, s'il s'agit d'une collecte à grande échelle, il est recommandé d'acheter une IP résidentielle statique.
Q : Pourquoi recommandez-vous ipipgo ?
R : Leur pool IP présente trois avantages majeurs : 1) les réseaux résidentiels de personnes réelles 2) la déconnexion automatique pour chaque session 3) la possibilité de filtrer les transporteurs par numéro ASN.
Q : Sur quoi puis-je marcher lors de la collecte de contenu ?
R : les données relatives aux prix sont relativement sûres, il ne faut pas toucher aux avis des utilisateurs et aux informations personnelles, il faut se méfier des plaintes DSAR (voir la politique d'Amazon).
Dites la vérité.
J'ai vu trop de gens considérer l'acquisition de la conformité comme simple, pensant qu'ils pouvaient faire ce qu'ils voulaient en obtenant une IP proxy. En réalité, il s'agit d'uneingénierie des systèmesLa première chose que je souhaite faire est de simuler une personne réelle, de la qualité de l'IP à la trajectoire de la demande. Récemment, j'ai aidé un vendeur de 3C à réaliser le programme, avec le service proxy d'ipipgo et l'optimisation de la trajectoire de la demande, qui a fonctionné de manière continue et stable pendant 7 mois sans interruption.
Un dernier rappel : ne vous laissez pas piéger par les liens entre les comptes ! Veillez à utiliser des comptes de magasin différents !Différents segments IP + différents environnements d'appareilsCette étape est plus importante que la collecte elle-même. Après tout, si vous perdez les données, vous pouvez les récolter à nouveau, mais si votre compte est bloqué, vous devez tout recommencer.

