
Pourquoi les recherches de données d'actualité sont-elles toujours bloquées ?
Les confrères qui se sont engagés dans la collecte de données d'actualité savent que le plus grand malheur est que le site cible vous donne soudainement une réponse.403 Refus d'accèsLa première chose que j'ai faite a été de faire fonctionner le news crawler pour moi. La semaine dernière, j'ai aidé un ami à déboguer le news crawler, de toute évidence le code n'est pas un problème, mais même saisi une demi-heure quasi-IP bloqué. Plus tard trouvé que le site sont maintenant l'apprentissage bien, voir l'accès à haute fréquence au segment IP noir direct, indépendamment du fait que vous êtes une personne réelle ou une machine.
C'est le moment de proposer l'arme magique qu'est le proxy IP. Pour faire simpleChangez sans cesse l'armure de la chenille.Le site peut ainsi penser qu'il est visité par différents utilisateurs. Par exemple, si vous allez au supermarché pour essayer de manger, vous ne pouvez pas laisser la même personne essayer de manger 100 fois, n'est-ce pas ? Si vous changez de vêtements et que vous y retournez, le vendeur ne vous reconnaîtra pas.
Travaux pratiques : mettre un gilet de procuration sur l'API d'actualités
Voici un exemple utilisant la bibliothèque de requêtes de Python. Faites attention à l'emplacement des paramètres du proxy, tout comme l'autocollant du courrier, vous devez le coller au bon endroit pour qu'il soit livré :
demandes d'importation
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:端口',
'https' : 'http://用户名:密码@gateway.ipipgo.com:端口'
}
Prétendre être accédé par un utilisateur normal
headers = {
User-Agent' : 'Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64)'
}
response = requests.get(
'https://newsapi.org/v2/top-headlines',
params={'category' : 'technology'},
headers=headers,
proxies=proxies,
timeout=10
)
Les points clés se trouvent à ces endroits :
- Adresse du proxy avec le mot de passe du compte (ne l'écrivez pas directement dans le code, mettez-le dans une variable d'environnement pour plus de sécurité)
- Agent utilisateur se faisant passer pour un navigateur
- Le délai d'attente ne doit pas être trop court, 5 à 10 secondes sont recommandées.
Choisir une IP proxy, c'est comme faire ses courses
Les services d'agence proposés sur le marché sont très hétérogènes ; en voici quelques-uns, faciles à mettre en place :
| nid-de-poule | résultat | prescription |
|---|---|---|
| Pool d'IP partagé trop encombré | L'IP a été supprimée du site il y a longtemps. | Choisissez un fournisseur de services avec une IP résidentielle |
| Protocole non pris en charge | Je ne peux pas me connecter à l'API | Confirmation de la prise en charge de HTTP/HTTPS |
| Facturation opaque du trafic | Les factures de fin de mois font peur. | Choisissez un emballage clairement étiqueté |
Voici une présentation de nos propres produitsipipgoLes IP résidentielles dynamiques sont particulièrement adaptées à la collecte d'informations. Il existe un savoir froid : de nombreux sites web d'actualités diffusent des contenus différents en fonction de la localisation géographique de l'IP visitée. En utilisant les ressources IP de sa famille dans plus de 200 pays à travers le monde, vous pouvez collecter des données d'actualités plus complètes.
Le temps de l'AQ : Questions fréquemment posées par les débutants
Q : Le proxy IP ralentira-t-il la vitesse de collecte ?
R : un bon service proxy contrôle la latence dans les 200 ms, plus rapidement que l'accès humain. La ligne TK d'ipipgo a mesuré une réponse moyenne de 180 ms, ce qui n'affecte pas l'efficacité du service proxy.
Q : Que se passe-t-il si je dois gérer plusieurs agents en même temps ?
R : Utilisez directement l'API qu'ils fournissent pour obtenir un pool d'IP, des exemples de code sont disponibles sur le site officiel. N'oubliez pas de définir la fréquence de commutation automatique, il est recommandé de changer d'IP toutes les 5 à 10 requêtes.
Q : À quoi dois-je faire attention lorsque je recueille des informations sur l'outre-mer ?
La ligne transfrontalière d'ipipgo est une connexion directe à l'opérateur, contrairement à certains fournisseurs de services qui contournent le pays tiers, la fraîcheur des données est garantie !
Économisez votre argent : comment choisir un forfait ipipgo
Dimensionné en fonction de la taille de l'entreprise :
- Test à petite échelle : version standard résidentielle dynamique, plus de 7 yuans de trafic 1G suffisant pour exécuter des dizaines de milliers de requêtes.
- Collection stable à long terme : IP résidentielle statique, 35 paquets par mois sans se soucier de la défaillance de l'IP.
- Exigences au niveau de l'entreprise : accès direct au service clientèle pour des solutions personnalisées, capacité à déployer des ressources IP à la demande.
Enfin, l'utilisation d'un proxy n'est pas une carte de sortie de prison. Ou pour se conformer à l'accord sur les robots du site web, contrôler la fréquence de la collecte. Après tout, nous sommes sérieux en ce qui concerne la collecte de données, ne vous laissez pas distraire par leurs serveurs. Le CAPTCHA n'est pas difficile à rencontrer, il suffit d'ajouter un petit intervalle, avec l'IP du proxy pour que l'effet soit meilleur.

