
Pourquoi suis-je toujours bloqué pour la collecte de données par LinkedIn ?
Récemment, de nombreux amis qui font du commerce extérieur se sont plaints que le crawler déclenche souvent le contrôle du vent lorsqu'il saisit des profils de clients LinkedIn. Le mois dernier, un ami a changé trois comptes à la suite, et les résultats ont tous été marqués comme anormaux par le système. Pour parler franchement, il s'agit deL'adresse IP révèle le comportement de la machine-comme les visites fréquentes à partir de la même adresse IP, les connexions transfrontalières et les schémas de demande trop évidents.
Prenons un cas concret : une société de commerce électronique transfrontalière utilise un serveur américain pour se connecter directement et saisit 500 données par jour. Tout s'est bien passé les trois premiers jours, mais le quatrième jour, elle a reçu un courriel d'avertissement de LinkedIn. Plus tard, elle est passée àAgents résidentiels dynamiquesLe cycle de survie est directement étendu à plus de deux semaines en répartissant les demandes sur des adresses IP d'utilisateurs réels dans différentes régions.
Proxy IP : comment vous aider à mener des opérations "furtives" ?
Voici une idée fausse à corriger :N'importe quel agent ne fera pas l'affaire.La première chose à faire est d'utiliser un proxy résidentiel pour masquer la visite d'une personne réelle. Le mécanisme de contrôle des vents de LinkedIn identifiera en particulier le segment IP de la salle des serveurs. Cette fois, vous devez utiliser un proxy résidentiel pour déguiser votre visite en personne réelle.
Recommandé pour ipipgoAgents résidentiels dynamiquesLe forfait, à 7,67 $/GB, est considéré comme très abordable dans le secteur. Le pool d'adresses IP couvre plus de 200 pays, ce qui est particulièrement adapté à la collecte de données transfrontalières. Par exemple, si vous souhaitez recueillir des informations sur une entreprise allemande, vous pouvez spécifier une adresse IP résidentielle dans la région de Francfort et remplacer automatiquement l'adresse d'exportation pour chaque demande.
demandes d'importation
proxies = {
'http' : 'http://user:password@gateway.ipipgo.com:9020',
'https' : 'http://user:password@gateway.ipipgo.com:9020'
}
response = requests.get('https://www.linkedin.com/company/xxx', proxies=proxies)
Ensemble pratique de trois pièces anti-blocage
Cette combinaison est recommandée sur la base des scénarios que nous avons testés :
1. stratégie de rotation des IP
Ne soyez pas stupide et n'utilisez pas une IP fixe, configurez l'IP pour qu'elle change toutes les 5-10 requêtes. L'API d'ipipgo prend en charge la commutation automatique par nombre de fois, n'oubliez pas d'ajouter des délais aléatoires (0,5-3 secondes) dans le code.
2. simulation d'empreintes digitales du navigateur
Il ne suffit pas de changer l'IP, il faut également modifier les paramètres de l'agent utilisateur, du fuseau horaire et de la langue. Nous vous recommandons d'utiliser un outil comme undetected-chromedriver.
3. l'anthropomorphisme des modèles de comportement
Ne capturez pas tout le point à temps, définissez l'intervalle d'opération aléatoire. Capturez davantage pendant la journée, du lundi au vendredi, et réduisez les demandes de manière appropriée pendant les week-ends.
Questions fréquemment posées
Q : Puis-je encore récupérer des données après avoir été bloqué ?
R : Désactiver immédiatement l'IP actuelle, passer à un nouveau compte + IP résidentielle statique. Le forfait résidentiel statique d'ipipgo est de 35 $/mois, ce qui convient à la maintenance du compte !
Q : Comment choisir un progiciel pour la collecte de données au niveau de l'entreprise ?
R : le volume moyen de requêtes quotidiennes est de 100 000. Il est recommandé de choisir la version dynamique résidentielle de l'entreprise, à 9,47 $/Go pour un plus grand nombre de requêtes simultanées, avec une fonction de réessai automatique en cas d'échec d'une requête.
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Ne résistez pas ! Changez immédiatement d'adresse IP et réduisez la fréquence des collectes. Vous pouvez travailler avec des plateformes de codage, mais les coûts vont exploser, il vaut donc mieux contrôler le rythme des demandes
Ce sont ces détails qui font la différence.
Récemment, en aidant des clients à déboguer, j'ai découvert un détail : de nombreuses personnes ignorent le paramètreGestion des cookies. Il est recommandé d'effacer les cookies locaux chaque fois que vous changez d'adresse IP afin d'éviter l'historique des corrélations.
Il y a aussi une opération de drague - avec l'opération ipipgo'sAgent de ligne TKEffectuer le canal de secours. Lorsque l'adresse IP du canal principal est restreinte, il bascule automatiquement sur le pool d'adresses IP dédié, ce qui est mesuré pour réduire la probabilité de blocage de 30%.
Un dernier rappel : ne soyez pas avide de plus et de plus vite ! Contrôlez le volume de collecte quotidien dans les limites de la tolérance de la plateforme. Nous avons testé un seuil de sécurité de 200 demandes maximum par jour pour les nouveaux comptes, et les comptes plus anciens peuvent être assouplis de manière appropriée jusqu'à 500.

