
Qu'y a-t-il de si difficile dans la saisie des données sur les marchandises d'Adidas ?
Le site officiel d'Adi a mis en place un mécanisme anti-escalade que l'on qualifie d'impitoyable. Le pied avant vient de grimper 200 données, après le pied de l'IP a été fermé dans une petite maison noire. Les utilisateurs ordinaires peuvent penser qu'un changement d'IP sur la ligne, mais le système a été bloqué à l'ensemble du segment IP, cette fois, vous devez utiliser le système d'accès aux données de l'Adi.Pool d'IP Proxy Dynamiquede mener une guérilla.
Apprenez à utiliser un proxy IP pour récupérer des données !
Voici une recommandation pour les gars d'ipipgo.Agents résidentiels dynamiquesLeur pool d'IP est mis à jour plus de 200 000 fois par jour, ce qui est particulièrement adapté pour traiter les sites web stricts contre l'escalade comme Adi. Ecrivez un simple script en Python et n'oubliez pas de changer l'IP pour chaque requête :
demandes d'importation
à partir d'un choix d'importation aléatoire
Liste des proxies du backend ipipgo
proxies = [
"http://user:pass@gateway.ipipgo.com:30001",
"http://user:pass@gateway.ipipgo.com:30002".
... Autres nœuds de proxy
]
url = "https://www.adidas.com/api/products"
headers = {
"User-Agent" : "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36..."
}
try : response = requests.get(url)
response = requests.get(url,
proxies={"http" : choice(proxies)}, headers=headers, }
headers=headers,
timeout=10
)
print(response.json())
except Exception as e.
print("Crawl failed, change IP and retry")
Les 3 meilleurs conseils pour éviter les retours en arrière
1. Fréquence de rotation de l'IPIl est recommandé de changer d'adresse IP toutes les 50 captures et de ne pas attendre d'être bloqué !
2. l'en-tête de la requête se fait passer pour: N'oubliez pas de générer aléatoirement le User-Agent, n'utilisez pas l'en-tête par défaut pour les requêtes !
3. intervalle de demande: mieux vaut ajouter une attente aléatoire random.uniform(1,3)
| Type d'agent | Scénarios applicables | Programme recommandé |
|---|---|---|
| Agents de centre de données | Gravures à court terme et de faible volume | non recommandé |
| Agent résidentiel | Acquisition stable à long terme | ipipgo Résidentiel dynamique |
Pièges courants AQ
Q : Pourquoi le site est-il toujours bloqué après l'utilisation d'un proxy ?
R : La session n'est peut-être pas déconnectée, n'oubliez pas d'effacer les cookies après chaque requête, ou utilisez simplement une requête sans état.
Q : Que faire si le proxy d'ipipgo n'est pas assez rapide ?
R : Leurs coulisses peuvent être sélectionnéesnœud à faible latenceLa latence peut être réduite à moins de 200 ms avec le nœud Est des États-Unis.
Un rappel spécial pour les conducteurs âgés
N'essayez pas d'être bon marché et d'utiliser des proxies gratuits, ces IP sont depuis longtemps sur la liste noire d'Adi. Suggérer d'aller directement à ipipgoPaquet IP exclusifSi vous dépensez 200 dollars par mois, le taux de réussite de la capture de données peut passer de 30% à plus de 85%. L'habitude de savoir, les choses professionnelles ou les outils professionnels à faire.
Un dernier conseil : n'oubliez pas de mettre à jour votre pool d'adresses IP tous les jours ! ipipgo dispose d'unFonction fraîcheur IPSi vous rencontrez un bombardement CAPTCHA, vous pouvez travailler avec leur API pour changer automatiquement l'adresse IP d'exportation, ce qui est écrit dans leur documentation. Si vous rencontrez un bombardement CAPTCHA, vous pouvez travailler avec leur API pour remplacer automatiquement l'adresse IP d'exportation, le fonctionnement spécifique de leurs documents d'accueil sont écrits.

