
Tout d'abord, pourquoi est-il si difficile d'obtenir des données sur le recrutement en effet ?
Le principal inconvénient des offres d'emploi d'Indeed est le fait qu'elles ne sont pas accessibles à tous.IP bloquéJe ne sais pas si vous êtes un fan de ce site. Ce site est comme un dieu de la porte, attrapant le même IP sauvagement gratter pour vous donner une liste noire. Le mois dernier, mes collègues ne croient pas au mal, avec leurs propres ordinateurs même grimpé 3 heures, les résultats de l'ensemble du réseau de bureau ne peut pas se connecter En effet, le patron a presque brisé son moniteur ...
Voici une comparaison de données réelles :
| Méthode d'acquisition | Durée moyenne de survie | taux de réussite |
|---|---|---|
| streak (courir nu) | 15 minutes. | 23% |
| Pool général de procurations | 2 heures | 67% |
| ipipgo dynamic ip | 8 heures + | 91% |
(Note : l'environnement de test pour la collecte quotidienne d'un volume de 50 000 données)
Deuxièmement, comment choisir l'IP proxy pour ne pas marcher sur les plates-bandes ?
Proxy IP sur le marché avec Taobao 9.9 données d'expédition ligne comme, regarder l'utilisation bon marché jusqu'à la mort. Le choix d'un proxy doit tenir compte de trois indicateurs importants :
1. Nombre suffisant d'adresses IP: Avec un pool de 10 millions d'IP comme ipipgo, le site ne le reconnaîtra même pas avec un nouveau gilet à chaque demande !
2. La vitesse de commutation est suffisanteIl est préférable de changer l'adresse IP automatiquement en quelques millisecondes, plutôt que d'attendre une demi-minute pour que toute l'adresse IP soit changée.
3. géographiquement précisPar exemple, si vous souhaitez capturer un poste américain et que l'on vous attribue une adresse IP indienne, vous serez immédiatement exposé.
J'ai utilisé un certain agent auparavant, l'IP est assez importante, mais une fois que les informations sur l'emploi sont mélangées avec le bengali, je me suis rendu compte que leur positionnement IP n'est pas du tout précis. Depuis que j'ai opté pour ipipgo, je peux spécifier l'adresse IP au niveau de la ville, et les emplois localisés sont très stables.
Troisièmement, la main pour vous apprendre à rouler dans le système de collecte
Voici un exemple en Python qui utilise la bibliothèque requests + ipipgo pour mettre en œuvre une commutation IP intelligente :
importation de requêtes
from itertools import cycle
Liste des proxys de ipipgo (n'oubliez pas de remplacer la clé API par la vôtre)
PROXY_LIST = [
"http://user:pass@gateway.ipipgo.com:8000",
"http://user:pass@gateway.ipipgo.com:8001", ...
... Plus de nœuds de proxy
]
proxy_pool = cycle(PROXY_LIST)
def get_jobs(keyword) :
for _ in range(3) : fail retry 3 times
proxy = next(proxy_pool)
try.
resp = requests.get(
f "https://www.indeed.com/jobs?q={motclé}",
proxies={"http" : proxy, "https" : proxy}, timeout=10
timeout=10
)
Analyse du code de la page...
retour des données
except Exception as e.
print(f "Echec du crawl avec {proxy}, changement d'IP automatique...")
return None
Attention à deux nids-de-poule :
1. la fréquence des demandes n'est pas trop élevée, il est recommandé de demander 3 à 5 fois l'initiative de changer d'IP
2. 随机加个0.5-2秒的,装得像真人操作
IV. questions fréquemment posées AQ
Q:Pourquoi ai-je été bloqué alors que j'ai utilisé une adresse IP proxy ?
R : 80% d'entre eux utilisent un pool d'IP partagé, trop de personnes utilisent le même segment. Le pool d'IP exclusif d'ipipgo peut éviter ce problème, chaque utilisateur dispose d'un segment d'IP séparé.
Q : Que dois-je faire si la réponse de l'IP proxy est lente ?
R : Choisissez un service proxy qui prend en charge le protocole HTTP2, comme les nœuds haut de gamme d'ipipgo dotés d'une ligne de transmission dédiée, plus de trois fois plus rapides que les proxy ordinaires.
Q : Que se passe-t-il si je dois saisir une position globale ?
R : En arrière-plan, ipipgo sélectionne directement le mode hybride de propriété intellectuelle multinationale, attribue automatiquement la propriété intellectuelle d'exportation du pays correspondant, pro-test pour attraper le poste australien avec la propriété intellectuelle locale, le taux de réussite a grimpé en flèche.
V. Liste complète des techniques d'entretien
1. Bilan de santé de la propriété intellectuelleLes nœuds en panne : tester automatiquement la disponibilité des adresses IP aux premières heures de la journée afin d'éliminer les nœuds en panne
2. péréquation du traficN'utilisez pas une seule IP pendant longtemps, fixez une limite de trafic quotidien pour une seule IP.
3. Contrôle des exceptionsLorsque 5 IP consécutives sont défaillantes, l'alarme SMS est immédiatement déclenchée.
4. Camouflage UAAvec le remplacement de l'IP d'ipipgo, changer aléatoirement l'User-Agent à chaque fois.
Enfin, nous avons trouvé une astuce : l'API d'ipipgo permet d'accéder au système d'ordonnancement des robots, la vitesse de réponse en temps réel permet de basculer automatiquement vers le nœud optimal. Notre équipe de projet, avec cet ensemble de solutions, a fonctionné de manière stable pendant 7 mois, sans se retourner, chaque jour secouant un million de pièces de données pour jouer comme.

