
Python pratique pour collecter les données de recrutement de LinkedIn
Les vieux briscards de la collecte de données savent que les informations sur les emplois de LinkedIn sont une véritable mine d'or, mais le mécanisme anti-escalade de la plateforme est plus strict que les barrières de la communauté. C'est le moment de sortir de notre tueur -IP proxyLa première chose à faire est de comprendre les règles du jeu. Ne vous précipitez pas sur le code, déterminez d'abord les règles du jeu : LinkedIn permet la capture de données publiques, mais il faut suivre les règles comme dans un supermarché, ne pas vider les étagères.
Pourquoi votre crawler est-il toujours bloqué ?
De nombreux débutants ont tendance à tomber dans ces pièges :
1. demandes à haute fréquence à IP unique (comme utiliser le même visage 100 fois par jour pour passer le contrôle d'accès)
2. en-tête de requête sans empreintes digitales du navigateur (comme courir nu au milieu de la nécessité de porter une tenue de soirée)
3. ignorer les règles de robots.txt (comme s'introduire dans le canal des employés)
C'est alors qu'il est temps d'utiliserServices proxy pour ipipgopour couvrir, leur pool d'adresses IP résidentielles est suffisamment important pour que la plateforme ne puisse pas savoir s'il s'agit d'une personne réelle ou d'un programme à chaque demande de gilet différent.
Le code du monde réel peut être écrit en toute sécurité de cette manière
Il ne faut pas oublier de changer la configuration du proxy pour votre propre compte ipipgo :
Importation de requêtes
from time import sleep
import random
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:端口', 'https' : 'http://用户名:密码@gateway.ipipgo.com:端口'
'https' : 'http://用户名:密码@gateway.ipipgo.com:端口'
}
headers = {
'Accept-Language' : 'en-US,en;q=0.9'
}
def safe_crawler(url).
try.
resp = requests.get(url, headers=headers, proxies=proxies, timeout=15)
Arrêt aléatoire comme un humain
sleep(random.uniform(1, 3))
return resp.json()
except Exception as e.
print(f "Demande d'exception : {str(e)}")
La fonction de commutation automatique d'IP doit être mise en œuvre avec l'API ipipgo.
Sélection de l'IP proxy avec précaution
Il existe deux types d'agents sur le marché, comparons-les dans un tableau :
| typologie | Scénarios applicables | programme ipipgo |
|---|---|---|
| Agent résidentiel | Une scène très anonyme | Pool d'IP d'utilisateurs réels |
| Agents de centre de données | Réponse rapide à la demande | Canal de bande passante dédié |
Recommandé d'abord aux débutantsMode de numérotation mixte de l'ipipgoLe système attribuera automatiquement la ligne optimale. Ne vous braquez pas lorsque vous rencontrez un CAPTCHA, utilisez l'outil de codage automatisé pour travailler avec lui.
Package d'expérience de conduite pour les vétérans
Ces paramètres sont réglés pour maintenir la paix :
- Intervalle de requête ≥1,5 seconde
- Requête IP unique ≤500 fois par jour
- Travailler avec la rotation de l'empreinte digitale du navigateur
- Surveiller la santé IP du backend ipipgo
Si vous voyez un retour de code de statut 429, arrêtez-vous, prenez une tasse de thé et attendez une demi-heure pour vous battre à nouveau. Ne jouez pas avec la plateforme, ce que nous voulons, c'est du temps.
Questions fréquemment posées
Q : Est-il possible d'utiliser une procuration gratuite ?
A : Jamais ! Les IP gratuites ont été blacklistées depuis longtemps, utilisez les proxies commerciaux d'ipipgo pour être en sécurité !
Q : La collecte de données est-elle légale ?
R : Ne saisissez que les données visibles publiquement, ne touchez pas à la vie privée des utilisateurs et ne dépassez pas 500 demandes par heure.
Q : Comment ipipgo garantit-il la fraîcheur des IP ?
R : Leur famille met automatiquement à jour le pool d'adresses IP toutes les 5 minutes, ce qui permet de personnaliser le temps de survie en fonction des scénarios de l'entreprise.
Enfin, les reptiles ne sont pas des machines à imprimer de l'argent.Contrôle raisonnable de la fréquence d'acquisitionC'est la solution à long terme. Utilisez la fonction de planification intelligente d'ipipgo, définissez le seuil du taux de demande et faites en sorte que le processus soit aussi naturel que la navigation avec de vraies personnes. N'oubliez pas de nettoyer les données lorsqu'elles arrivent, ne laissez pas des données sales polluer votre modèle analytique.

