
Vous n'arrivez pas à faire fonctionner le crawler d'Instagram ? Essayez cette astuce sauvage
Tous ceux qui ont travaillé dans le domaine de la collecte de données savent qu'Instagram est comme un hérisson : il ressemble à de la viande, mais ce n'en est pas. Pourquoi ? Le mécanisme anti-escalade des gens en fait trop, ils ne bougent pas pour bloquer l'IP, cette fois si vous n'avez pas un peu d'habileté, des minutes pour apprendre à être un être humain.
Récemment, j'ai discuté avec quelques amis qui travaillent dans le domaine du commerce social et j'ai découvert qu'ils utilisaient tous le logicielpool d'IP proxyCette astuce permet de renouveler sa vie. Pour le dire crûment, il s'agit de préparer un tas de gilet numéro, celui-ci est bloqué immédiatement pour changer le suivant. Mais le service des agents du marché est mitigé, après avoir utilisé sept ou huit d'entre eux, il s'est avéré queipipgoLe taux de survie de la maison est vraiment imbattable, en particulier son IP résidentiel dynamique, qui a été personnellement testé pour fonctionner pendant trois jours d'affilée sans tomber.
Sans conteste, vous pouvez construire un crawler vajayjay.
Commençons par une mesure qui va à l'encontre du bon sens :Ne courez pas nu avec la bibliothèque des demandes !Même si vous ajoutez un UA aléatoire, une seule IP meurt rapidement comme d'habitude. Examinons une configuration réelle :
importation de requêtes
from itertools import cycle
Interface API fournie par ipipgo
PROXY_API = "https://ipipgo.com/api/get_proxy?type=resident"
def get_proxies() :
resp = requests.get(PROXY_API)
return [f"{p['ip']}:{p['port']}" for p in resp.json()]
proxy_pool = cycle(get_proxies())
for _ in range(10): : [p['ip']}:{p['port']}
try.
proxy = next(proxy_pool)
response = requests.get(
'https://www.instagram.com/api/v1/users/web_profile_info/',
proxies={"http" : f "http://{proxy}", "https" : f "http://{proxy}"},
timeout=5
)
print("Données en main !")
except Exception as e.
print(f "Ce {proxy} est mort, passez au suivant → {e}")
C'est là que le bât blesse :Les agents résidentiels ont trois fois plus de chances de survivre que les agents travaillant dans des salles de serveurs.Je ne suis pas sûr que vous puissiez le faire, mais je suis sûr que vous pourrez le faire, surtout si vous pouvez le faire seul.
Cinq actions honteuses pour éviter le blocage
1. Ne soyez pas trop régulier dans votre rythme de rotation des PI-Commuter à des intervalles aléatoires, ne pas laisser la plateforme percevoir des schémas.
2. Biscuits individuels par IP-Ne laissez pas les gilets porter les mêmes vêtements.
3. Travaillait de 3 à 6 heures du matin.--Les seuils de contrôle des risques seront revus à la hausse pendant cette période.
4. Se faire passer pour un navigateur normal--plus le suivi de la souris et le temps de séjour sur la page
5. Disposer d'un pool d'IP de secours 5%-Peut être remplacé immédiatement en cas de panne imprévue.
| Type d'agent | Durée moyenne de survie | Scénario |
|---|---|---|
| Centre de données IP | 2-4 heures | Tests à court terme |
| IP résidentielle statique | 12-24 heures | Collection quotidienne |
| IP résidentielle dynamique | Commutation à la demande | ramper massivement |
Ancien conducteur QA Time
Q : Pourquoi suis-je toujours bloqué après avoir utilisé un proxy ?
R : 90% parce que les caractéristiques comportementales sont exposées, vérifiez l'attribut Sec-Fetch dans l'en-tête de la requête, n'utilisez pas l'attribut par défaut du serveur !
Q : Combien de PI dois-je préparer pour être suffisant ?
R : Si vous collectez 10 000 données par jour, il est recommandé de préparer 200 adresses IP résidentielles dynamiques, et les paquets d'ipipgo contiennent exactement cette quantité.
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Ne soyez pas rigide ! Désactivez immédiatement l'IP actuelle pendant au moins 6 heures, il est recommandé de faire correspondre la plateforme de codage à l'identification automatique !
Un dernier mot de vérité :L'IP proxy n'est pas une panacée, mais sans IP proxy, c'est impossible.. L'ipipgo est particulièrement apprécié pour son routage intelligent, qui lui permet d'éviter automatiquement les segments IP marqués. La dernière fois qu'il y a eu un projet d'analyse concurrentielle, il a été difficile de glaner 500 000 données en s'appuyant sur son pool d'adresses IP. N'oubliez pas que sur le champ de bataille des données, l'IP proxy est votre meilleur gilet pare-balles.

