
La mise en conformité de la propriété intellectuelle des mandataires pour attraper des emplois sur LinkedIn
Récemment, beaucoup d'amis qui font de l'analyse de données de recrutement m'ont demandé comment je pouvais extraire les informations sur les emplois sur LinkedIn d'une manière conforme ? Aujourd'hui, nous allons nous séparer pour parler de cette question. Concentrez-vous sur un outil essentiel - le proxy IP, en particulier notre IP domestique.ipipgoLe service, utilisez-le et vous saurez à quel point c'est un soulagement.
Pourquoi vous faites-vous toujours bannir ? Cela commence par l'IP.
Le mécanisme anti-crawl de LinkedIn est comme un contrôle d'accès communautaire, la même carte de porte (adresse IP) qui entre et sort trop souvent sera certainement ciblée. J'ai vu des gens utiliser leur propre bande passante pour explorer des données, et le résultat est que le lendemain, tout le réseau de l'entreprise a été supprimé. C'est le moment deRotation de l'IP du proxyCela équivaut à changer de carte d'accès à chaque fois que vous entrez et sortez.
Exemple en Python : mise en commun de serveurs mandataires avec ipipgo
import requêtes
from itertools import cycle
proxy_pool = cycle([
'http://user:pass@ip1.ipipgo.com:8000',
'http://user:pass@ip2.ipipgo.com:8000', ...
... Plus de nœuds fournis par ipipgo
])
pour page dans range(1, 10) :
proxy = next(proxy_pool)
resp = requests.get(
proxies={"http" : proxy}, headers={"User-Agent" : "Mozilla/5.0"} remember pseudo}, proxy_pool
headers={"User-Agent" : "Mozilla/5.0"} N'oubliez pas de masquer votre navigateur !
)
Traitement de la logique des données...
time.sleep(3) Important ! N'utilisez pas le serveur comme votre propre disque dur !
Les trois éléments essentiels du choix d'un proxy IP
Il existe de nombreux fournisseurs de proxy sur le marché, mais le bon pour LinkedIn doit répondre à ces critères stricts :
| norme | demande | ipipgo real test |
|---|---|---|
| Pureté IP | IPs non marquées par LinkedIn | Mises à jour quotidiennes 20% Inventaire |
| localisation géographique | Segment IP où se trouve l'entreprise cible | Prise en charge du positionnement de plus de 50 pays |
| vitesse de connexion | Temps de réponse <800ms | Moyenne 623 ms |
Rappel spécial : n'essayez pas de faire du cheap avec des free agents, ces IP sont depuis longtemps blacklistées par les grandes plateformes. Avant qu'un client ne se montre avidement bon marché, le résultat de l'escalade vers toutes les fausses données.
Guide pratique pour éviter la fosse
Un exemple concret : une plateforme de recrutement qui utilise le système de gestion des ressources humaines d'ipipgo.IP résidentielle dynamiqueAprès le service, le taux de réussite de l'acquisition des données est passé de 37% à 89%. L'opération clé se résume à trois points :
1) Sélectionnez au hasard un pays pour chaque demande (mais ne sautez pas d'un continent à l'autre, il est facile de se faire prendre).
2. travailler avec de vraies empreintes de navigateur (ne pas utiliser l'UA par défaut de Python)
3. suspension immédiate pendant 1 heure en cas de rencontre avec un CAPTCHA (une lutte acharnée ne peut que conduire à une mort plus rapide)
Voici ce que vous pouvez essayer : adaptez la durée de l'exploration aux heures de travail de la zone cible et utilisez la fonction d'ipipgoEntreprise locale IPafin de donner l'impression que c'est le RH normal qui vérifie les messages.
Foire aux questions QA
Q : Quelle quantité de données puis-je saisir par jour sans risquer d'avoir des ennuis ?
R : Il est recommandé de contrôler moins de 5 000 éléments, avec un intervalle de demande de plus de 3 secondes. L'arrière-plan de l'utilisateur d'ipipgo dispose d'une fonction intelligente de rappel de la vitesse, et enverra automatiquement un avertissement en cas de dépassement.
Q : Comment puis-je me sauver si j'ai été bloqué ?
R : Désactivez immédiatement le segment IP actuel et contactez le service clientèle d'ipipgo pour obtenir un nouveau pool IP. Le service clientèle d'ipipgo est spécialisé dans lesService de déblocage des listes noiresL'accès peut être rétabli dans les 48 heures.
Q : Dois-je maintenir mon propre pool d'adresses IP ?
R : Jamais ! Nous avons subi cette perte, le coût de maintenance d'un serveur proxy auto-construit est plus cher que l'achat du service. La fonction de changement automatique d'IP d'ipipgo, configurer les règles de rotation géographique et vous pouvez vous coucher à plat.
Dites la vérité.
J'ai vu trop de personnes plantées sur le problème de l'IP, un ami du recrutement à l'étranger, à cause de l'utilisation d'un service proxy peu fiable, valant des millions de comptes qui seraient fermés sur le sceau. Le choix d'un service de procuration est similaire à la recherche d'un partenaire, vous devez regarder la stabilité à long terme. ipipgo a une bonne chose, c'est queSoutenir le paiement à la performanceLes échecs de crawl ne sont pas facturés, ce qui est particulièrement favorable aux startups.
Un dernier rappel : le respect des règles est primordial ! Ne touchez pas aux données personnelles privées et suivez les règles robots.txt de LinkedIn. Ce que nous devons faire, c'est danser dans le cadre des règles, et non démolir les étapes des gens. Utilisez les bons outils, utilisez les bons proxys, et l'acquisition de données peut devenir un art.

