
Il s'agit probablement du tutoriel qui permet d'économiser le plus d'argent sur le site web.
Quel est le plus grand casse-tête en matière de saisie de données ? Neuf personnes sur dix répondrontIP bloqué. J'ai écrit un bon script de crawler hier, et aujourd'hui il s'est exécuté et a cessé de fonctionner. Ne vous empressez pas de changer d'outil, voyez d'abord si l'IP est bloquée. Parlons de quelque chose de concret aujourd'hui, apprenez comment utiliser des outils gratuits + une IP proxy pour obtenir une stabilité à long terme du crawl de données.
Pourquoi vous fait-on toujours retirer des sites web ?
De nombreux débutants pensent que changer l'agent utilisateur les trompera, mais en fait, il existe de nombreuses façons pour les sites web d'identifier les robots. En particulier, ces trois caractéristiques sont les plus faciles à mettre en évidence :
1. le même accès IP à haute fréquence (des dizaines de requêtes par minute)
2. l'heure des requêtes est trop régulière (comme un chronomètre sur le temps)
3. ne visiter qu'une page spécifique (aller directement à la cible et ne pas en visiter d'autres)
Cette fois-ci, il est nécessaire d'utiliser une IP proxy pourse faire passer pour un autre utilisateurC'est comme lorsque vous allez au supermarché et que vous changez de vêtements et de coiffure à chaque fois. C'est comme si tu allais au supermarché et que tu changeais de vêtements et de coiffure à chaque fois, la caissière ne reconnaîtrait pas la même personne.
Outils gratuits pour la configuration du monde réel
Voici trois outils recommandés qui fonctionnent vraiment, et n'oubliez pas de les utiliser avec une adresse IP proxy pour de meilleurs résultats :
| Nom de l'outil | Scénario | Méthodes de configuration du proxy |
|---|---|---|
| Ferraille | Collecte de données à grande échelle | Paramètres de l'intergiciel |
| BeautifulSoup | Analyse simple des pages | Demande les paramètres de l'agent de bibliothèque |
| Sélénium (informatique) | Pages à rendre | Paramètres de démarrage du navigateur |
Apprentissage pratique de la prospection d'agents
Prenons l'exemple de la bibliothèque de requêtes de Python et utilisons le service proxy d'ipipgo comme démonstration :
demandes d'importation
proxies = {
'http' : 'http://username:password@gateway.ipipgo.com:端口',
'https' : 'http://username:password@gateway.ipipgo.com:端口'
}
response = requests.get('destination URL', proxies=proxies, timeout=10)
print(response.text)
Note : pour remplacer le nom d'utilisateur et le mot de passe par vos propres informations d'authentification enregistrées auprès d'ipipgo, il est recommandé d'utiliser les informations suivantesAgents résidentiels dynamiquesCe type d'IP est le plus proche des utilisateurs réels.
Un guide pour éviter le gouffre (Sang et larmes)
- N'utilisez pas de proxy public, ces adresses IP sont déjà repérées par les principaux sites web.
- Intervalle aléatoire de 2 à 5 secondes par demande, les demandes trop rapides seront bloquées !
- Effacez régulièrement les cookies ; il est recommandé de les vider toutes les 50 requêtes.
- Ne vous battez pas avec le CAPTCHA, changez d'adresse IP et réessayez.
Foire aux questions QA
Q : Les proxys gratuits fonctionnent-ils ?
R : Le test temporaire peut être, l'utilisation à long terme ou doivent choisir ipipgo tels services professionnels. Leur taux de survie IP peut atteindre 98%, ce qui est beaucoup plus stable que le proxy gratuit.
Q : De combien d'agents ai-je besoin pour avoir un nombre suffisant d'agents ?
R : Examinez la fréquence de la collecte. Demande ordinaire de ramassage d'ipipgoPaquet de base(500IP/jour), si vous effectuez une surveillance des prix et d'autres opérations à haute fréquence, il est recommandé d'utiliser la version entreprise du pool d'adresses IP dynamiques.
Q : Comment puis-je savoir si une procuration est en vigueur ?
R : Visitez cette URL de test : http://ip.ipipgo.com pour voir l'adresse IP de sortie actuellement utilisée.
Conseils pour l'entretien d'un pool de mandataires
Il est recommandé de changer l'IP de 20% tous les jours, comme on change l'eau d'un aquarium. Il est particulièrement facile de mettre en œuvre un remplacement automatique à l'aide de l'API ipipgo :
Exemple d'API pour obtenir une nouvelle IP
importer des demandes
def refresh_ip() : url = "
url = "https://api.ipipgo.com/getip?type=json&count=10"
response = requests.get(url).json()
return response['data']
N'oubliez pas de mettre en place un mécanisme de tentative d'échec pour passer automatiquement à l'adresse IP suivante lorsque le délai de connexion est dépassé, de sorte que même si certains serveurs mandataires échouent, l'ensemble de la tâche de collecte ne sera pas interrompue.
Enfin, pour être honnête, les outils gratuits + un proxy professionnel sont les meilleurs. Au lieu d'utiliser diverses versions craquées de logiciels, vous devriez consacrer votre énergie à la qualité de l'adresse IP. Après tout, ce n'est pas le site web qui est bloqué par l'outil, mais l'adresse IP qui se trouve derrière. Avec la bonne méthode, les outils ordinaires peuvent également avoir un effet professionnel.

