
Pourquoi la saisie des données de recrutement sur LinkedIn est-elle toujours bloquée ?
Récemment, beaucoup de mes amis qui font de l'analyse de recrutement se sont plaints du fait que les données d'emploi de LinkedIn sont de plus en plus difficiles à obtenir. Vous avez peut-être essayé de réduire la fréquence des demandes, de modifier l'agent utilisateur, mais vous avez constaté que c'était tout simplement impossible.traiter les symptômes mais pas la cause profonde. Le cœur du problème est que le mécanisme anti-crawling de la plateforme a été en mesure d'identifier avec précision les comportements anormaux d'une même IP.
Prenons un cas concret : une société de chasseurs de têtes utilise l'IP fixe de son propre bureau pour collecter des données ; les trois premiers jours, la collecte de 200 données par heure s'est déroulée normalement, mais le quatrième jour a été soudainement complètement bloqué. Ce qui est encore plus gênant, c'est que cette IP est bloquée, ce qui affecte la connexion normale au compte de recrutement de l'entreprise."Une perte, deux pertes".Situation.
La bonne façon d'ouvrir un proxy IP
La clé de la résolution de ce problème réside dansFaire en sorte que chaque demande ait l'air d'être effectuée par une personne différente. Voici un plan de configuration testé et efficace à partager :
importation de requêtes
from itertools import cycle
proxies = [
"http://user:pass@gateway.ipipgo.com:30001", "http://user:pass@gateway.ipipgo.com:30001", "http://user:pass@gateway.ipipgo.com:30001", "http://user:pass@gateway.ipipgo.com:30001
"http://user:pass@gateway.ipipgo.com:30002".
Il est recommandé d'avoir au moins 50 IP en rotation.
]
proxy_pool = cycle(proxies)
for page in range(1, 10) : current_proxy = next(proxy_pool)
current_proxy = next(proxy_pool)
current_proxy = next(proxy_pool)
response = requests.get(
url="https://www.linkedin.com/jobs/search/",
url="", proxies={"http" : current_proxy}, headers={"User-Agent" : "Random_User"),
headers={"User-Agent" : "UA generated by random UA generator"}, timeout=10
timeout=10
)
Traitement de la logique des données...
except Exception as e.
print(f "Erreur lors de l'utilisation du proxy {current_proxy} : {str(e)}")
En voici les grandes lignesConfiguration unique de l'ipipgoLeurs proxys résidentiels dynamiques sont dotés d'une émulation de l'empreinte du navigateur, où chaque IP est associée à des informations réelles sur l'appareil, ce qui les rend plus difficiles à identifier que les proxys ordinaires. En particulier, leursTechnologie de maintenance intelligente des sessionsLa possibilité de conserver le statut de connexion lors du changement d'adresse IP est particulièrement importante pour les pages de détail des articles qui nécessitent une connexion pour être consultées.
Liste de contrôle de la stratégie anti-blocage
Lorsqu'ils sont utilisés avec une IP proxy, ces détails font la différence :
| point de risque | prescription |
|---|---|
| Fréquence fixe des demandes | Délai aléatoire (0,5-3 secondes) + différentes stratégies pour les jours de la semaine/les week-ends |
| Les caractéristiques de l'en-tête sont uniques | 11 empreintes digitales de navigateur générées aléatoirement par demande |
| Comportement de l'association IP | Demander jusqu'à 20 remplacements immédiats par période d'enquête |
| Interception du CAPTCHA | Module d'auto-reconnaissance AI CAPTCHA utilisant ipipgo |
Note spéciale : De nombreuses personnes utilisent les proxies d'une manière qui ne tient pas compte de la règle de laProblèmes de fuites DNS. Il est recommandé d'inclure la logique de détection dans le code, ou de se contenter de la solution fournie par ipipgo.Proxy avec chiffrement par tunnel completL'objectif est d'éviter ce genre d'erreurs de bas niveau en partant de la base.
Pièges courants AQ
Q : J'ai manifestement utilisé une adresse IP proxy, mais j'ai quand même été bloqué.
R : Vérifiez trois points : 1. si chaque demande fait réellement basculer l'IP de sortie 2. si l'heure locale est synchronisée avec le fuseau horaire du serveur proxy 3. s'il y a un problème de fuite de cookies.
Q : Le pool d'adresses IP d'ipipgo doit-il être entretenu par moi-même ?
R : Pas besoin, ils excluront automatiquement les adresses IP marquées en arrière-plan, ils ont testé leur système de gestion des adresses IP.Systèmes de nettoyage dynamiquesUn nouveau lot d'adresses IP est mis à jour toutes les 15 minutes, ce qui est beaucoup plus efficace qu'une maintenance manuelle.
Q : Quel niveau de vitesse de capture puis-je obtenir ?
R : Avec 50 rotations d'IP, l'état stable permet d'obtenir 800 à 1200 données d'emploi complètes (y compris les informations sur l'entreprise et l'échelle des salaires) par heure. S'il s'agit d'un projet de commande urgente, vous pouvez activer les fonctions d'ipipgoMode Rushmais veillez à faire correspondre le contrôle de la fréquence de la demande.
Des solutions pour sauver le cœur des technophiles
Si vous ne voulez pas écrire votre propre code, vous pouvez simplement utiliser le code fourni par ipipgo.LinkedIn Data Acquisition Suite. Leur programme préconfiguré comprend
- Mots clés automatisés pour les messagesSouscription
- Fonction d'exclusion intelligente des messages en double
- Exportation multiformat (lien direct Excel/API/base de données)
- Mécanisme de fusion automatique pour le trafic anormal
Ils ont récemment été mis en ligneService personnalisé pour les entreprisesIl prend en charge la formation de modèles propriétaires anti-crawling basés sur les caractéristiques de l'industrie. La précision de l'analyse des données peut être améliorée de plus de 40%, en particulier pour les secteurs de la finance, de l'informatique et d'autres domaines présentant des formats de description de poste particuliers.

