
Jouer sur la rotation des IP est la bonne façon d'empêcher le blocage.
Les amis qui s'occupent de la collecte de données sur les réseaux savent que le blocage des adresses IP est aussi courant que le fait de manger et de boire de l'eau. Hier, nous avons construit un bon crawler, ce matin, nous avons fait une pause. En ce moment, nous devons proposer notre killer app -La grande rotation de la propriété intellectuelleC'est la première fois que je vois cela. Ne méprisez pas cette astuce, avec la bonne, vous pouvez doubler l'efficacité de la collecte, avec la mauvaise, comme d'habitude, c'était scellé à pleurer.
La rotation des adresses IP n'est pas aléatoire. Voici trois conseils à retenir.
Nombreux sont ceux qui pensent que la rotation d'IP n'est qu'un simple commutateur temporisé, mais il y a en fait beaucoup de portes ouvertes. D'après l'expérience que nous avons acquise auprès de plus de 300 entreprises, elle doit reposer sur ces trois dimensions :
| dimension (math.) | Approche du débutant | Programme pour les conducteurs expérimentés |
|---|---|---|
| Afficher l'évaluation | Changement fixe de 5 minutes | Ajustement dynamique en fonction des visites |
| Type IP | Centre de données IP uniquement | IP résidentielles mixtes + salles de serveurs |
| Délai de basculement | Un changement au bon moment. | Délai aléatoire ± 30 secondes |
Prenons par exemple le cas d'un client d'ipipgo, une équipe chargée de comparer les prix dans le domaine du commerce électronique, qui bloque chaque jour plus de 50 adresses IP.Classement dynamique + pool d'IP hybrideAprès cela, il fonctionne maintenant une semaine d'affilée sans interruption. Ils utilisent le programme de rotation intelligente d'ipipgo, dont je parlerai plus tard.
Système de rotation pratique
Voici un exemple concret en Python, utilisant la bibliothèque requests + l'API d'ipipgo pour réaliser une commutation automatique. Prêtez attention à la section des commentaires, c'est une expérience pleine de sang et de larmes :
importer des demandes
import random
from time import sleep
def get_new_ip(): : Nous appelons ici l'API ipipgo pour obtenir une nouvelle IP.
Nous appelons ici l'API ipipgo pour obtenir une nouvelle IP.
api_url = "https://api.ipipgo.com/get?type=rotate"
resp = requests.get(api_url).json()
return f"{resp['ip']}:{resp['port']}"
current_proxy = get_new_ip()
request_count = 0
while True : current_proxy = get_new_ip()
request_count = 0 while True : current_proxy = get_new_ip()
proxies = {"http" : current_proxy, "https" : current_proxy}
N'oubliez pas de définir un délai d'attente, afin de ne pas avoir à attendre indéfiniment.
resp = requests.get('target site', proxies=proxies, timeout=10)
print("Capture réussie !")
request_count +=1
Voici la clé ! Stratégie de commutation dynamique
if request_count > random.randint(50,80) : Seuil de commutation aléatoire
current_proxy = get_new_ip()
request_count = 0
sleep(random.uniform(0.5,3)) ajouter un délai aléatoire
except Exception as e.
current_proxy = get_new_ip(", e)
current_proxy = get_new_ip() changer l'IP immédiatement
request_count = 0
L'essentiel de ce script se trouve dans leSeuil de commutation aléatoirerépondre en chantantDeuxième changement anormalMécanisme. Il est beaucoup plus fiable que les programmes de commutation à heure fixe et il a été personnellement testé pour réduire la probabilité de blocage IP de plus de 70%.
le bon pool d'adresses IP double l'effet et réduit l'effort de moitié
La qualité de l'IP affecte directement l'effet de rotation. J'ai testé de nombreux services proxy sur le marché, et j'ai finalement choisi ipipgo principalement pour trois raisons :
- Pourcentage élevé de PI résidentielles réellesLeur pool d'adresses IP résidentielles dynamiques est beaucoup plus difficile à identifier que les adresses IP des salles de serveurs.
- Basculer dans l'insenséLa vitesse de réponse de l'API est suffisamment rapide pour que l'entreprise ne souffre pas d'un décalage lors d'un changement d'adresse IP.
- Large couverture géographiqueLes adresses IP de n'importe quelle ville peuvent être coupées en quelques secondes, ce qui convient particulièrement aux entreprises qui ont besoin d'être géolocalisées.
La semaine dernière, j'ai aidé un client à effectuer un test de stress, en utilisant le schéma de rotation d'ipipgo pour envoyer continuellement 200 000 requêtes, et le taux de survie peut encore être maintenu à 98% ou plus. Ces données sont considérées dans l'industrie comme tout à fait capables de battre.
Foire aux questions QA
Q : Est-il coûteux de changer fréquemment d'adresse IP ?
R : Le modèle de facturation d'ipipgo est assez souple, en fonction de la quantité utilisée. Et ils envoient 5G de trafic pour les nouveaux utilisateurs, ce qui est suffisant pour les tests.
Q : Comment puis-je savoir si une adresse IP est une vraie résidence ?
R : Vous apprendrez une mauvaise méthode pour utiliser l'IP afin de vérifier le site météorologique. Si la météo renvoyée et l'emplacement de l'IP ne correspondent pas, 80 % est l'IP de la salle du serveur. ipipgo's IP I have checked the accuracy of 90% or more !
Q : Que se passe-t-il si je veux plus d'une adresse IP en même temps ?
R : Ils disposent d'une fonction de canaux simultanés, il suffit d'ouvrir plusieurs connexions API. N'oubliez pas d'utiliser des paramètres d'authentification différents pour chaque canal afin que les segments IP soient différents.
Dites la vérité.
La rotation des adresses IP s'apparente à une partie de whack-a-mole. Les règles du blocage d'adresses IP changent tous les jours, et nos stratégies d'adaptation doivent également être mises à jour. Récemment, j'ai découvert que certains sites web avaient commencé à détecter les adresses IP.Modèle de commutation IPLa commutation à intervalle de temps fixe est particulièrement facile à détecter.
Suggérer aux gars d'essayer ipipgo'sAlgorithme de commutation intelligentLe sentiment le plus intuitif est que vous n'avez pas à regarder les journaux toute la journée pour voir si vous avez été bloqué. Le sentiment le plus intuitif est d'économiser du temps, de ne pas avoir à regarder le journal toute la journée pour voir s'il y a un blocage.
Un dernier mot d'avertissement : ne perdez pas votre temps avec des proxies gratuits. J'ai déjà mis les pieds dans le plat, et 8 IP gratuites sur 10 étaient noires, et elles ont été bloquées avant même que je ne commence à les utiliser. Les choses professionnelles sont toujours laissées aux professionnels, gagner du temps pour s'engager dans plus d'affaires ne sent pas bon ?

