
I. Pourquoi l'ascension d'Indeed est-elle toujours bloquée ? Il vous manque peut-être cet outil magique
Récemment, un grand nombre d'analyses de recrutement d'amis et moi-même nous sommes plaints que l'escalade des données d'En effet est comme un gopher - juste saisi deux pages sur le bloc IP. Un ami ne croit pas au mal, avec leur propre maison à large bande même saisi trois jours, les résultats de l'ensemble du réseau communautaire ont été mis sur la liste noire. Cette chose semble scandaleuse, mais ce n'est vraiment pas un paragraphe.
La racine du problème se trouve dans laExposition à l'IPEn effet, l'anti-creeper est maintenant très voleur, non seulement pour voir la fréquence des visites, même l'emplacement géographique IP, les empreintes digitales de l'appareil doivent être vérifiées. Tout comme vous allez au supermarché pour essayer de manger, même si vous prenez une douzaine de fois le même type de produits de dégustation, le commis ne vous fixe pas pour fixer qui ?
Deuxièmement, comment utiliser l'IP proxy qui ne tourne pas ? Rappelez-vous les trois points suivants
Sélectionner les services proxy IP ne doit pas être avidement bon marché, certains agents libres sur le marché pour regarder les problèmes, l'utilisation réelle que la vieille dame traversant la route plus lentement. Voici pour vous apprendre quelques astuces pour éviter le gouffre :
| norme | ligne de passage | données mesurées de l'ipipgo |
|---|---|---|
| Temps de survie IP | >4 heures. | Moyenne 8,5 heures |
| réactivité | <200ms | 152 ms |
| taux de disponibilité | >95% | 99.2% |
C'est là que le bât blesse.Pureté IPLes adresses IP résidentielles d'ipipgo sont les adresses IP natives des appareils réels, contrairement aux adresses IP de la salle des serveurs, qui ont une "saveur de salle des serveurs" et sont faciles à identifier. C'est comme lorsque vous allez dans un restaurant chic : l'attitude du service peut-elle être la même en pyjama ou en tenue de soirée ?
Troisièmement, la main vous apprend à faire correspondre l'agent aux données de capture
Démonstration de la configuration la plus basique avec la bibliothèque de requêtes de Python, voir la section sur les paramètres du proxy :
demandes d'importation
à partir d'un choix d'importation aléatoire
Liste des proxies de ipipgo
proxies_pool = [
"http://user:pass@gateway.ipipgo.com:30001",
"http://user:pass@gateway.ipipgo.com:30002", ...
... Autres nœuds de proxy
]
def get_jobs(keyword) :
proxies = {"http" : choice(proxies_pool), "https" : choice(proxies_pool)}
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit..."}
try : response = requests.get()
response = requests.get(
f "https://www.indeed.com/jobs?q={motclé}", proxies=proxies, proxies.get(
proxies=proxies,
headers=headers,
timeout=10
)
Traitement des données renvoyées...
except Exception as e.
print(f "Erreur de crawl : {e}")
En voici une.astuce séduisante--Le pool d'ipipgo est suffisamment important pour fonctionner comme un jeu de poulets où vous changez constamment de point d'atterrissage et où la zone de sécurité aura toujours votre emplacement.
Quatrièmement, les anciens conducteurs comprennent les techniques d'anti-blocage
1. Contrôle du rythmeLes intervalles aléatoires (1 à 3 secondes) sont plus sûrs !
2. l'en-tête de la requête se fait passer pour: n'oubliez pas d'apporter les empreintes digitales complètes de votre navigateur, n'utilisez pas l'UA par défaut de Python.
3. échouer et réessayerN'ayez pas la tête dure et ne changez pas d'agent lorsque vous rencontrez une 403.
4. Correspondance géographiqueLes messages des États-Unis peuvent être interceptés à l'aide d'une adresse IP locale ; ipipgo prend en charge la localisation précise !
V. Le temps de l'assurance qualité : les pièges que vous avez peut-être rencontrés
Q:Pourquoi ai-je été bloqué alors que j'ai utilisé un proxy ?
R : Vérifiez trois choses : ① si le proxy est pur ② si la fréquence des demandes est trop élevée ③ s'il simule le comportement de l'utilisateur réel
Q : Comment ipipgo garantit-il la qualité de ses agents ?
R : Leurs adresses IP sont des adresses IP dynamiques de qualité résidentielle avec leur propre environnement d'équipement réel, contrairement aux adresses IP des salles de serveurs qui sont facilement étiquetées. Il existe en outre un mécanisme d'élimination automatique qui met hors ligne en temps réel les adresses IP qui réagissent lentement.
Q : Dois-je gérer mon propre pool d'agents ?
R : Ce n'est pas nécessaire si vous utilisez ipipgo, leur API vous renverra les nœuds disponibles. Si vous construisez votre propre pool de proxy, il est recommandé de mettre à jour 30% ou plus d'IPs chaque jour.
Sixièmement, dites quelque chose de sincère
Faire de l'exploration de données, c'est comme faire du travail clandestin, la clandestinité est la première chose à faire. Ne croyez pas ceux qui disent qu'il suffit d'attraper les tutoriels, maintenant les systèmes anti-escalade sont sur l'IA. Le mois dernier, un client qui utilisait un proxy commun s'est vu bloquer plus de 200 adresses IP en un jour et les a remplacées par des adresses ipipgo.Agents résidentiels dynamiquesEnsuite, le taux de réussite grimpe en flèche pour atteindre plus de 95%.
Un dernier rappel pour les débutants :Ne pas utiliser de proxy pour l'enregistrement des comptesLa combinaison nouveau compte + nouvelle IP est trop suspecte ! La combinaison nouveau compte + nouvelle IP est trop suspecte, il est préférable de s'enregistrer d'abord avec une IP locale, de la conserver pendant un certain temps et d'utiliser ensuite un proxy pour la faire fonctionner.

