
I. Pourquoi les crawlers de LinkedIn sont-ils toujours bloqués ? Vous avez peut-être marché sur ces nids-de-poule
Les vieux routiers de la collecte de données doivent comprendre que le mécanisme anti-crawl de LinkedIn est plus étanche qu'une porte de sécurité. Les plus courants sontFréquence excessive d'accès à l'IPDans ce cas, la plateforme trouve la même adresse IP qui fait des requêtes à tour de bras et vous met sous scellés. Il existe une autre situationComportement anormal du compteIl peut s'agir de l'affichage soudain d'un grand nombre de profils d'utilisateurs inconnus ou de l'utilisation d'un compte nouvellement enregistré pour prendre directement le relais.
J'ai récemment rencontré un cas réel : une société de recrutement avec un serveur local directement connecté, a juste escaladé 200 informations sur les emplois, l'IP a été mise sur liste noire. Plus tard, elle est passée au proxy résidentiel dynamique d'ipipgo et a changé les IP des utilisateurs réels dans différentes régions pour chaque demande, et elle n'a pas déclenché le contrôle des vents pendant 3 jours d'affilée.
II. trois éléments au cœur des données relatives à l'engagement de conformité
Voici les faits saillants pour les gars :
1. respecter le protocole du robot (ne pas toucher les champs interdits à la reptation)
2. l'intervalle de demande n'est pas trop gourmand (recommandé 5-10 secondes / temps)
3. simulation d'un comportement réel (ne pas utiliser de scripts pour brosser)
En se concentrant sur la sélection de l'IP par procuration, un tableau de comparaison directe :
| Type d'agent | Durée de conservation | Scénarios applicables |
|---|---|---|
| Agents de centre de données | minute | Pour les essais à court terme |
| Agents résidentiels statiques | indemnité journalière | Exigences opérationnelles fixes |
| Agents résidentiels dynamiques | Remplacement au niveau de la demande | Acquisition de données à long terme |
Les pools d'agents dynamiques tels que ceux d'ipipgo ont les caractéristiques suivantesPlus de 90 millions d'adresses IP résidentielles réellesLa commutation automatique de chaque demande a été personnellement testée pour fonctionner avec des intervalles de 10 secondes et a fonctionné pendant une semaine d'affilée sans aucun problème.
Troisièmement, la main pour configurer l'agent crawler
Démonstration ici en Python, idem pour d'autres langages :
Importation de requêtes
from time import sleep
proxies = {
"http" : "http://用户名:密码@gateway.ipipgo.com:端口",
"https" : "http://用户名:密码@gateway.ipipgo.com:端口"
}
def fetch_jobs(keyword).
for page in range(1, 100) : url = f "{mot clé}&page={page}".
url = f "https://linkedin.com/jobs搜索接口?keywords={mot clé}&page={page}"
response = requests.get(url, proxies=proxies)
N'oubliez pas d'ajouter un délai aléatoire de 5 à 15 secondes
sleep(np.random.randint(5,15))
Logique d'analyse des données...
Veillez à faire correspondre les valeursRotation de l'agent utilisateurNe laissez pas toutes les requêtes utiliser la même empreinte de navigateur. Le backend d'ipipgo peut générer directement une adresse de proxy avec authentification, de sorte que vous n'avez pas à vous occuper vous-même de l'authentification.
IV. kit de premier secours anti-blocage (collection de pièces détachées)
Ne paniquez pas si vous avez déjà été touché :
1. arrêter immédiatement toutes les opérations sur l'IP actuelle
2. changer le segment IP dans le backend ipipgo
3. effacer les cookies du navigateur et le stockage local
4. opérer avec une nouvelle IP + un nouveau compte après 24 heures.
Voici une opération peu glorieuse : répartir les plages horaires de collecte dans lesHoraires de travail locaux(par exemple, les adresses IP américaines fonctionnent de 9 à 18 heures, heure de l'Ouest des États-Unis), ce qui rend plus difficile l'identification des anomalies par la plateforme.
V. Postes de premiers secours AQ
Q : Est-il possible d'utiliser une procuration gratuite ?
R : Une leçon qui fait couler beaucoup d'encre ! Les IP gratuites figurent depuis longtemps sur la liste noire et seront bloquées juste après la connexion, ce qui peut entraîner des fuites de données. Pourquoi ne pas utiliser ipipgo ?Nettoyage automatique de l'IPet le remplacement de l'IP invalide en quelques secondes.
Q : Pourquoi suis-je toujours bloqué alors que j'ai changé d'adresse IP ?
R : Vérifiez si vous utilisez le VM fingerprinting, LinkedIn peut maintenant détecter les fonctionnalités de VMware. Suggérer d'aller sur ipipgo'senvironnement sandbox du navigateurIl est plus sûr de l'utiliser avec un agent.
Q : Quel est le volume d'IP nécessaire par jour ?
A:Selon le calcul d'une minute pour collecter 10 fois, il faut probablement environ 150 adresses IP pour une journée entière.Emplacement 150 IP/jouril est recommandé de commencer par cette configuration.
VI. dire la vérité
J'ai vu trop de gens avides et bon marché avec un agent de mauvaise qualité, le résultat des frais d'agent de scellement de compte a également touché l'eau. Un service d'agent fiable à voirPureté IPrépondre en chantantRéactivité du service après-venteLa dernière fois que j'ai appelé le technicien d'ipipgo à 2 heures du matin, j'ai été surpris qu'il me réponde en quelques secondes et m'aide avec le routage IP.
Enfin, ne pensez pas à glaner des données sur LinkedIn, et fixez la fourchette de collecte de manière raisonnable. Après tout, nous faisons des affaires sérieuses, la conformité pour le riz Chai à long terme, n'est-ce pas ?

