
Le quotidien d'un IP bloqué par la Mission : les larmes amères d'un petit garçon à quatre pattes
La semaine dernière, il y a une analyse de données de restauration du vieux frère pour me trouver plaint, a déclaré que l'utilisation de script Python pour grimper les informations de la boutique Meituan, au début, vous pouvez exécuter des dizaines de pages de données, après deux jours directement IP dans la liste noire. Cette scène ressemble à une file d'attente dans un parc d'attractions, juste en jouant deux articles ont été traînés par les gardes de sécurité -Je ne peux même pas toucher la porte..
Démystifier les "trois axes" du groupe américain contre le vol à la tire.
Le système anti-crawling de Meituan ressemble à des agents de sécurité en civil dans un centre commercial, spécialisés dans l'arrestation de clients suspects. Il se concentre sur trois caractéristiques principales :
1. Tempo des visites à haute fréquence(Les gens normaux ne cliquent pas sur les pages 10 fois par seconde).
2. Anomalies de la voie IP(regarder les restaurants de hotpots à Pékin le matin et courir à Sanya l'après-midi pour trouver des fruits de mer)
3. Demande d'empreintes digitales identiques(Toutes les visites portent la même empreinte digitale du navigateur)
Jeu de guérilla : l'art de la rotation de la propriété intellectuelle
Voici une recommandation pour ipipgoAgents résidentiels dynamiquesIls disposent d'un pool de plus de 90 millions d'adresses de réseaux domestiques réels pour leur réserve d'adresses IP et peuvent changer de gilet à chaque demande. Ils disposent d'un pool de plus de 90 millions d'adresses de réseaux domestiques réels pour leur pool d'IP et peuvent changer de gilet à chaque demande. Exemple de configuration :
proxies = {
'http' : 'http://user:pass@gateway.ipipgo.com:3000',
'https' : 'http://user:pass@gateway.ipipgo.com:3000'
}
Veillez à faire correspondreMécanisme stochastique de dormance, définissez l'intervalle de demande comme suit :
| Type d'opération | intervalle de temps |
|---|---|
| fonctionnement de la bascule | 3-8 secondes |
| capture de la page de détail | 5-12 secondes |
| Téléchargement d'images | 1-3 secondes |
Les merveilles de la géolocalisation
MMT affichera différents magasins en fonction de la situation géographique de l'utilisateur. Utilisez la fonctionAgents de localisation au niveau de la villePar exemple, si vous souhaitez collecter des données sur les plats à emporter à Shanghai, vous devez choisir l'adresse IP résidentielle locale de Shanghai, afin d'obtenir la liste de magasins la plus complète et la plus précise possible.
Conseils cachés pour la sélection du protocole
Le test a révélé que la détection du protocole socks5 par le groupe américain est faible. ipipgo prend en charge l'accès complet au protocole, il est donc recommandé d'utiliser son protocole socks5.proxy résidentiel socks5La bibliothèque des demandes est ainsi constituée :
proxies = {
'http' : 'socks5://user:pass@gateway.ipipgo.com:3000',
'https' : 'socks5://user:pass@gateway.ipipgo.com:3000'
}
AQ pratique anti-blocage
Q : Que dois-je faire si j'utilise un proxy et que je suis toujours bloqué ?
R : Vérifiez trois choses : 1) si la rotation automatique des adresses IP est activée 2) si l'en-tête de la requête contient l'empreinte digitale du navigateur 3) si le CAPTCHA est déclenché. Il est recommandé d'activer la fonction de rotation automatique d'ipipgoRejet automatique des IP non validesFonctionnalité
Q : Comment gérer la nécessité de collecter des données dans plusieurs villes ?
R : En utilisant le logiciel ipipgoAcquisition simultanée de plusieurs zones géographiquesSolution, chaque ville se voit attribuer un segment IP indépendant afin d'éviter de déclencher des alarmes en sautant d'une zone à l'autre.
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Suspendez immédiatement l'accès à l'IP, le pool de proxy d'ipipgo marquera automatiquement le nœud problématique. Il est recommandé de coopérer avec la plateforme de codage pour effectuer un traitement temporaire.
Derniers conseils pour sauver des vies
Ne mettez pas vos œufs dans le même panier !Les IP dynamiques et statiques doivent être mélangéesJe vais utiliser ipipgo pour la collecte de données importantes.IP résidentielle statique de longue duréeL'adresse IP de l'entreprise est la même que l'adresse IP du bureau principal de l'entreprise, et l'adresse IP de l'entreprise est la même que l'adresse IP du bureau principal de l'entreprise, et l'adresse IP du bureau principal de l'entreprise, et l'adresse IP du bureau principal de l'entreprise, et l'adresse IP du bureau principal de l'entreprise.
Récemment, j'ai aidé un ami à utiliser cette méthode pour fonctionner régulièrement pendant un demi-mois, en collectant en moyenne plus de 50 000 données de magasins par jour sans s'arrêter. La clé est de fonctionner comme une personne réelle qui achète les produits de la Mission...Prendre son temps, s'arrêter de temps en temps, changer souvent d'endroit. Utilisez le pool mondial de ressources IP d'ipipgo et vous verrez que le mécanisme anti-escalade est comme la porte de sécurité d'un supermarché ; tant que vous faites vos achats normalement, l'alarme ne se déclenchera jamais.

