IPIPGO proxy ip Craigslist Data Scraping Tool Development Tutorials

Craigslist Data Scraping Tool Development Tutorials

Craigslist Data Capture Pit Le plus facile à mettre en place Do the web page crawl brother know, Craigslist this old classifieds site especially love to block IP. Last month I help friends to get used car data, with their own server just grabbed more than 200, and suddenly returned to the 403 error. De plus, l'ensemble...

Craigslist Data Scraping Tool Development Tutorials

Les pièges les plus courants de l'exploration des données de Craigslist.

Le mois dernier, j'ai aidé un ami à obtenir des données sur les voitures d'occasion et j'ai utilisé mon propre serveur pour récupérer plus de 200 articles, qui ont soudainement renvoyé une erreur 403. Qui plus est, tout le segment IP de la salle des serveurs a été occulté, ce qui m'a obligé à m'accroupir devant l'ordinateur et à fumer un demi-paquet de cigarettes avant de ralentir.

Des tests ultérieurs ont révélé trois caractéristiques principales de la stratégie de blocage de Craigslist :Le blocage des adresses IP est plus rapide que la livraison de nourriture par les garçons de Meituan.etInterdiction consécutive du même segment IPetPlus d'indulgence à l'égard de la propriété intellectuelle résidentielleLa première chose à faire est d'utiliser une IP proxy. Les IP ordinaires de la salle des serveurs ne survivent pas plus d'une demi-heure, c'est pourquoi vous devez utiliser des IP proxy pour vous couvrir.

Choisir une IP proxy, c'est comme chercher un partenaire, cela dépend de ces trois éléments.

Il existe une pléthore de fournisseurs de proxy sur le marché, mais il n'y en a vraiment pas beaucoup qui conviennent à l'exploration de Craigslist. D'après l'expérience que j'ai acquise en parcourant les fosses, concentrez-vous sur les trois paramètres suivants :

norme Exigences en matière de respect des normes données mesurées de l'ipipgo
Type IP IP résidentiel > IP pour salles de serveurs Mélange de logements dynamiques et statiques
taux de disponibilité >95% 97.3% (données de la semaine dernière)
Méthode de commutation Commutation automatique de l'API Prise en charge de la commutation par demande/par minute

Les IP résidentielles dynamiques d'ipipgo se vantent d'être les plus efficaces.La réserve de propriété couvre les 50 États d'Amérique du NordJ'ai pu obtenir de véritables adresses IP résidentielles à large bande pour chaque demande, et une fois, j'ai volontairement fait fonctionner le crawler toute la nuit, et le lendemain matin, j'ai regardé les statistiques et j'ai vu que plus de 300 adresses IP avaient été changées en 8 heures, mais qu'elles n'avaient pas été bloquées.

Apprentissage pratique de l'ensemble de l'outil de capture en direct

En Python, par exemple, le code de base ne comporte que cinq étapes :

1) Allez sur le backend ipipgo pour générer une clé API (n'oubliez pas de sélectionner l'IP résidentielle nord-américaine).
2) Installer la bibliothèque de requêtes :pip install requests
3. configurer l'intergiciel proxy :

demandes d'importation

def get_proxy() : { {proxy() : {proxy() : {proxy() : {proxy()
    return {
        
        'https' : 'https://用户名:密码@gateway.ipipgo.com:端口'
    }

response = requests.get('https://craigslist.org', proxies=get_proxy())

4. définir des intervalles de demande aléatoire (3-10 secondes recommandées)
5. faux User-Agent (n'oubliez pas d'ajouter l'UA mobile Windows et Mac)

Ne soyez pas paresseux et sautez l'étape 4! !! Une fois, j'ai réglé l'intervalle à 1 seconde et le temps de survie de l'IP pour ipipgo est passé directement de 6 heures à 20 minutes. Il est recommandé d'utilisertime.sleep(random.uniform(3,8))Cette pause aléatoire donne à la visite l'aspect d'une opération menée par une personne réelle.

Conseils anti-blocage résumés par des conducteurs chevronnés

D'après l'expérience de ces deux années passées à aider les clients à récupérer des données, ces trois opérations sordides peuvent réduire considérablement la probabilité d'être bloqué :

  • Utilisation mixte d'ipipgoIP dynamiquerépondre en chantantIP statique de longue duréeL'IP statique est utilisée pour assurer la stabilité des données importantes.
  • La bibliothèque UA est mise à jour tous les mardis après-midi (heure américaine), moment où la stratégie de blocage de Craigslist est brièvement assouplie.
  • Ne soyez pas si dur avec les CAPTCHA, l'accès à une plateforme de codage vous permet d'économiser beaucoup d'efforts par rapport à la construction de votre propre modèle de reconnaissance.

Foire aux questions QA

Q : Pourquoi suis-je toujours bloqué même si j'utilise une adresse IP proxy ?
R : 80% de la pureté de l'IP n'est pas suffisante, il est recommandé de changer l'IP résidentielle d'ipipgo. Ne soyez pas trop gourmand et n'utilisez pas un proxy gratuit, ces IP sont depuis longtemps des Craigslist dans un petit livre.

Q : Quel volume d'IP est nécessaire par jour pour être suffisant ?
R : Sur la base de 50 demandes par heure, il est plus prudent de préparer un pool de 200 adresses IP par jour. Les forfaits d'ipipgo sont les suivantsPaquet de base pour 500 IP par jourIl est suffisant pour les projets de petite et moyenne envergure.

Q : Le scraping de données est-il légal ?
R : Tant que cela ne concerne pas la vie privée de l'utilisateur, il n'y a pas de problème pour se conformer aux règles de robots.txt. Il est recommandé de ne pas toucher au numéro de téléphone et à l'adresse électronique de ces informations sensibles, nous ne récupérons que les données publiques relatives aux produits !

Enfin, je voudrais dire que la capture des données est un jeu du chat et de la souris. L'année dernière, j'ai utilisé sept ou huit fournisseurs de services proxy, la dernière coopération à long terme ou ipipgo. leur service client technique une fois à deux heures du matin pour m'aider à déboguer l'en-tête de la demande, ce genre de service dans l'industrie est vraiment rare. Récemment, j'ai vu le site officiel dans le nouvel utilisateur d'envoyer des activités de flux 5G, veulent entrer dans la fosse frère peut aller à la collecte de laine essayer.

Cet article a été initialement publié ou compilé par ipipgo.https://www.ipipgo.com/fr/ipdaili/30116.html

scénario d'entreprise

Découvrez d'autres solutions de services professionnels

💡 Cliquez sur le bouton pour plus de détails sur les services professionnels

Vente de fin d'année de nouvelles IP dynamiques 10W+ pour les États-Unis

Fournisseur professionnel de services d'IP proxy étrangers-IPIPGO

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Nous contacter

Nous contacter

13260757327

Demande de renseignements en ligne. QQ chat

Courriel : hai.liu@xiaoxitech.com

Horaires de travail : du lundi au vendredi, de 9h30 à 18h30, jours fériés.
Suivre WeChat
Suivez-nous sur WeChat

Suivez-nous sur WeChat

Haut de page
fr_FRFrançais