
Pourquoi dois-je utiliser une adresse IP proxy pour les données d'évaluation d'Amazon ?
Les amis du commerce électronique savent que, pour analyser les concurrents, il faut se pencher sur l'évaluation des produits. Le mois dernier, j'ai aidé un ami à obtenir une analyse de l'évaluation des produits pour mères et bébés, l'IP locale a juste saisi 200 données, a cliqué sur les données bloquées, et a été tellement en colère qu'il a presque cassé le clavier.
C'est alors qu'il est temps deProxy ip pool rotationpour briser la glace. Le principe est simple :Chaque fois, vous demandez un "mannequin" différent.ce qui fait croire à la plateforme qu'il s'agit d'un utilisateur différent. C'est comme si vous alliez au supermarché pour essayer quelque chose et que vous changiez de veste à chaque fois, le vendeur ne vous reconnaîtra pas comme la même personne.
import requests
from ipipgo import get_proxy Nous utilisons ici le SDK ipipgo.
def scrape_amazon_reviews(product_id).
proxy = get_proxy(type='https', country='us') auto assignation de l'ip résidentielle US
headers = {'User-Agent' : 'Mozilla/5.0'} remember to disguise the browser
try.
response = requests.get(
f'https://www.amazon.com/product-reviews/{product_id}',
proxies={'https' : proxy},
headers=headers,
timeout=10
)
return response.text
except Exception as e.
print(f'Scrape error, automatically switching ip to retry | error message:{str(e)}')
return scrape_amazon_reviews(product_id) auto retry mechanism
Les trois grandes fosses du choix de l'ip proxy, 90% les gens ont planté
Les services d'agent sur le marché sont mitigés, j'ai vu le cas le plus scandaleux : une entreprise a acheté un paquet d'agent à bas prix, les résultats de l'ip 50% sont dans la liste noire d'Amazon. Ici pour apprendre à tout le monde à éviter le gouffre :
| nid-de-poule | résultat | solutions ipipgo |
|---|---|---|
| Inondations IP dans les centres de données | déclencher un mécanisme anti-escalade | Fournit une IP native de qualité résidentielle |
| Réutilisation élevée de la propriété intellectuelle | Blocage fréquent des CAPTCHA | Dix millions de pools d'adresses IP dynamiques |
| Imprécisions géographiques | Absence d'évaluation géographique | Soutien au positionnement au niveau de la ville |
La manipulation des données avec ipipgo
Après avoir ouvert un compte ipipgo, concentrez-vous sur ces deux caractéristiques :
1) Modèles de rotation intelligents :Toutes les 5 requêtes, l'IP change automatiquement, avec un en-tête UA aléatoire, le pro-test attrape 3 heures sans être banni !
2) Mécanisme d'échec à la réessai :Changement automatique d'IP pour réessayer en cas de CAPTCHA, ce qui est plus de 10 fois plus efficace qu'un traitement manuel.
Configuration d'une politique de rotation intelligente
from ipipgo import RotatingProxy
proxy_config = {
strategy' : 'smart_rotate', mode intelligent
requests_per_ip' : 5, 5 fois par IP
retry_times' : 3, ne pas réessayer 3 fois
'geo_target' : 'us-west' Spécifie l'IP de l'ouest des Etats-Unis.
}
avec RotatingProxy(proxy_config) comme proxy.
Le code de votre crawler...
Foire aux questions QA
Q : Puis-je être poursuivi par Amazon pour avoir utilisé un proxy IP ?
R : Tant qu'il n'y a pas d'attaques malveillantes et que les règles de robots.txt sont respectées, la simple collecte de données publiques est légale. L'accord de service d'ipipgo interdit explicitement toute utilisation illégale.
Q : Combien de PI sont nécessaires pour être suffisants ?
R : Pour 10 000 commentaires par jour, il est recommandé de préparer plus de 500 adresses IP résidentielles de haute qualité. L'offre commerciale d'ipipgo comprend un quota de 600 adresses IP par jour et envoie également un réapprovisionnement automatique pour les demandes qui n'ont pas abouti.
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Ne résistez pas ! Réduisez immédiatement la fréquence des demandes et changez d'ipipgo.Propriété intellectuelle résidentielle à fort taux d'empilementLe code est un service standard qui peut être utilisé en conjonction avec un service de codage automatisé (à noter que ce dernier est acheté séparément).
Un peu d'expérience sincère.
L'année dernière, j'ai aidé un grand fabricant de produits 3C à réaliser une analyse concurrentielle à l'aide du logiciel ipipgoIP ciblée au niveau de la villeUn phénomène a été constaté : les utilisateurs de Los Angeles s'intéressent davantage à la conception des produits, tandis que les New-Yorkais sont plus préoccupés par les paramètres fonctionnels. Ce type de données géographiquement différenciées ne peut pas être saisi par des agents ordinaires.
Un dernier rappel pour les débutants :N'achetez pas un mauvais agent au rabaisJe ne suis pas sûr d'avoir déjà eu un problème avec cela auparavant ! Auparavant, un ami était avide de bon marché, et le résultat a été lancé par le fournisseur - les IP indiquées étaient toutes marquées par Amazon, et le compte a été bloqué juste après le lancement de la procédure, ce qui a été une grande perte.

