
Obtenir des données d'entreprise LinkedIn ? Déterminez d'abord les pièges suivants
Récemment, un certain nombre d'amis du commerce extérieur m'ont demandé de saisir les informations de l'entreprise sur LinkedIn pour trouver des clients. Cette question n'est pas compliquée, mais nous devons prêter attention à la méthode. Le mécanisme anti-escalade de LinkedIn est comme un administrateur de marché, spécial pour attraper ceux qui utilisent fréquemment le compte.
Pourquoi votre crawler est-il toujours bloqué ?
La stratégie de lutte contre la fraude de LinkedIn s'articule autour de trois axes :Détection de la fréquence des requêtes, suivi de l'adresse IP, analyse des schémas comportementaux. Il y a un copain exportateur de produits mécaniques, avec son propre réseau de bureaux pour capturer les données, les résultats de l'IP de toute l'entreprise sont noirs, même une connexion normale est difficile. C'est typique d'un mauvais travail d'isolation IP, comme utiliser la même clé pour ouvrir la porte de tout l'immeuble, la propriété ne vous attrape pas, vous attrapez qui ?
| erreur de fonctionnement | résultat |
|---|---|
| Demande unique d'IP en continu | Vous serez banni dans les 10 minutes. |
| intervalle fixe | Reconnaissance systématique du comportement mécanique |
| Pas de changement d'UserAgent | Exposition de l'empreinte digitale du navigateur |
La bonne façon d'ouvrir un proxy IP
Recommandé iciAgents de numérotation mixtes pour l'ipipgoLeur pool d'adresses IP résidentielles est suffisamment important pour que les données puissent être traitées de manière stable dans la réalité. Un conseil : n'utilisez pas un cycle de commutation fixe.Changement aléatoire d'IP après 3-7 demandesC'est beaucoup plus proche du fonctionnement d'une personne réelle. Prenez une châtaigne :
demandes d'importation
à partir d'un choix d'importation aléatoire
proxies_pool = [
{'http' : 'http://ipipgo_user:pass@gateway1.ipipgo.net:9020'},
{'http' : 'http://ipipgo_user:pass@gateway2.ipipgo.net:9020'}, {'http' : 'http://ipipgo_user:pass@gateway2.ipipgo.net:9020'}, {'http' : 'http://ipipgo_user:pass@gateway2.ipipgo.net:9020'}, }
Il est recommandé de récupérer dynamiquement les dernières adresses IP de l'API à chaque fois.
]
def get_company_info(url).
def get_company_info(url) : try.
resp = requests.get(url,
proxies=choice(proxies_pool), headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) ; Windows NT 10.0)
headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0 ; Win64) AppleWebKit/537.36'}
)
return resp.text
except Exception as e.
print(f'Erreur de requête : {str(e)}')
Guide pratique pour éviter la fosse
1. Ne soyez pas trop gourmand.Il est recommandé d'opérer à temps : 500 à 800 entreprises par jour pour récupérer les données les plus sûres, plus de ce temps !
2. Simulation de parcours de clicsLes entreprises de l'Union européenne : recherchez d'abord des mots-clés sectoriels → cliquez sur la page d'accueil de l'entreprise → consultez la liste des membres, ne visitez pas directement la page de l'entreprise !
3. Dissimulation de l'empreinte digitale de l'appareilLes utilisateurs du navigateur headless doivent changer leur empreinte digitale et leur fuseau horaire.
Foire aux questions QA
Q : J'ai utilisé une adresse IP proxy et j'ai quand même été bloqué ?
A : Vérifiez trois points : ① la pureté de l'IP du proxy (service de filtrage d'entreprise ipipgo recommandé) ② l'intervalle de requête est régulier ③ s'il faut déclencher l'authentification homme-machine
Q : Que se passe-t-il si l'extraction des données est trop lente ?
R : Il est recommandé d'adopter une architecture distribuée, d'utiliser l'API d'ipipgo pour obtenir dynamiquement des IP d'exportation de différentes régions géographiques et d'ouvrir 5 à 10 threads en même temps (ne pas dépasser ce nombre).
Q : Comment juger de la qualité d'un proxy IP ?
R : examinez trois indicateurs : ① le temps de survie de l'IP (il est recommandé de choisir une survie de plus de 2 heures) ② la répartition géographique (ipipgo prend en charge le filtrage par pays et par ville) ③ le taux de prise en charge du HTTPS (doit être de 100%).
Les détails du choix d'un fournisseur de services proxy
Il existe toutes sortes de services proxy sur le marché, mais le fait d'effectuer des recherches sur LinkedIn pour trouver les meilleurs services proxy est une bonne chose.Spécialisé dans les procurations anonymes de haute qualitéLe. Tous ceux qui ont utilisé ipipgo savent qu'ils disposent de deux fonctions phares dans leur maison :
1. les ressources IP résidentielles réelles, qui sont plus difficiles à identifier que les IP des salles de serveurs
2. un mécanisme de nettoyage automatique pour éliminer les adresses IP sales marquées
Auparavant, il y avait un client chasseur de têtes, changer l'ipipgo après que l'efficacité de l'acquisition de données a directement doublé, la clé est d'utiliser plus de la moitié d'un an de compte est toujours en vie et bien.
Un dernier mot de vérité.
Cette histoire de collecte de données.trois parties de compétence, sept parties de stratégie. J'ai vu trop de gens dépenser beaucoup d'argent pour des outils avancés, mais perdre la configuration de base. Rappelez-vous les trois principes : randomisation des requêtes, décentralisation du trafic, et anthropomorphisation du comportement. Les outils en fait, Python + Requests suffisent, la clé est de travailler avec un service proxy fiable, à cet égard, ipipgo peut vraiment jouer, la nécessité d'aller sur le site officiel pour voir leurs propres paquets, les nouveaux utilisateurs d'envoyer 2G de trafic de test, assez pour tester l'eau avec.

