
Wenn Crawler auf Amazon treffen: Warum ist Ihr Konto immer gesperrt?
Do E-Commerce-Datenerhebung alten Zhang hatte vor kurzem Kopfschmerzen, schrieb er ein Crawler-Programm auf Amazon lief weniger als drei Tage, wurde das Konto für alle gesperrt. Diese Sache ist wie ein Spiel von whack-a-mole - einfach auf ein neues Konto setzen, und dann die CAPTCHA erscheint später. In der Tat liegt der Kern des Problems darinNetzwerk-FingerabdruckerkennungOn, Amazons Windkontrollsystem ist empfindlicher als die Zugangskontrolle in Ihrer Nachbarschaft, und häufiger Zugriff auf dieselbe IP löst sofort einen Alarm aus.
Hier ist ein echter Fall: Ein Verkäufer von Mutter- und Babyartikeln muss Preise in Echtzeit vergleichen, wobei er sein eigenes Büronetz zur Datenerfassung nutzt, und infolgedessen wurde sogar die E-Mail-Adresse des Unternehmens geschwärzt. Später wurde auf die IP-Rotation eines privaten Proxys umgestellt, und der Überlebenszyklus wurde von 2 Stunden auf 3 Wochen verlängert. Dies zeigt, dassDie Qualität des geistigen Eigentums entscheidet direkt über den Erfolg oder Misserfolg der ÜbernahmeEs ist, als würde man mit einem anderen Gesicht in den Supermarkt gehen, um nicht vom Sicherheitspersonal bemerkt zu werden.
Drei Achsen des Erwerbs von Konformität
Beginnen wir mit den drei wichtigsten Grundsätzen (bitte notieren):
| Formel | falsche Demonstration | richtige Handhabung |
| Häufigkeit der Anfragen | 10 Anfragen pro Sekunde | Zufällige Intervalle von 3-8 Sekunden |
| IP-Korrelation | 50 Konten teilen sich 1 IP | 1 IP entspricht 1 Konto |
| Verhaltenssimulation | Fester User-Agent | Browser Fingerabdruck Zufallsgenerierung |
Konzentrieren Sie sich auf den IP-Teil, der Markt der Proxy-Dienste ist uneinheitlich. Einige Anbieter vergeben IPs, die von Amazon als "schwarz" markiert wurden, und die Nutzung dieser Dienste ist so, als würde man in einer Gefängnisuniform zum Bankschalter gehen. Wir haben die Residential-Proxys von ipipgo getestet, und ihre IP-Pools haben eine Besonderheit - sie haben viele IPs, aber nicht alle.Jede IP trägt echte Breitbandattribute für den HeimgebrauchDieser Punkt ist besonders kritisch für das Aufwickeln.
Praktische Konfiguration von Proxys
Hier ist ein Python-Beispiel (kopieren Sie es nicht direkt, sondern schauen Sie in den Kommentarbereich, um es zu ändern):
importiert Anfragen
von itertools importieren Zyklus
Liste der Proxys aus dem ipipgo-Backend
proxy_list = [
'http://user:pass@gateway.ipipgo.com:30001',
'http://user:pass@gateway.ipipgo.com:30002', ...
... Mindestens 20 vorbereiten
]
proxy_pool = cycle(proxy_list)
url = 'https://www.amazon.com/dp/B08KL9xxxx'
for _ in range(100)::
try: proxy = next(proxy_pool)
proxy = next(proxy_pool)
response = requests.get(url,
proxies={"http": proxy, "https": proxy}, headers={'User-Agent': get_random_user_agent('https': proxy) }, }
headers={'User-Agent': get_random_user_agent()}, selbst eine zufällige UA-Generierung implementieren
timeout=10
)
Verarbeitung der Seitendaten...
except Exception as e.
print(f "Anfrage mit {proxy} fehlgeschlagen, weiter", e)
Achten Sie auf zwei Fallstricke: Erstens, versuchen Sie nicht, einen billigen Rechenzentrums-Proxy zu verwenden, Amazon kann das IP-Segment des Serverraums identifizieren; zweitens, denken Sie daran, den Code in derZufallsüberwinterungnoch kann ein menschlicher Betrieb 24 Stunden am Tag ohne zu blinken arbeiten.
5 Fragen, die Sie sich sicher stellen werden
F: Ist 100% mit einer Proxy-IP sicher?
A: Genau wie das Anlegen eines Sicherheitsgurtes beim Autofahren verringert es das Risiko, ohne es zu beseitigen. Es wird empfohlen, mit einem Fingerabdruck-Browser und einer Kontoerhöhungsstrategie zu arbeiten.
F: Wie kann ich das CAPTCHA umgehen, wenn ich es sehe?
A: Stoppen Sie sofort die Erfassung der aktuellen IP, ipipgo kann im Hintergrund automatisch die Problem-IP isolieren, auf eine neue IP wechseln und 24 Stunden warten und es dann erneut versuchen!
F: Wie viele IPs sind erforderlich, um ausreichend zu sein?
A: Schauen Sie sich die Sammlung Skala, die tägliche Sammlung von Tausenden von Daten mit dynamischen Rotation IP auf der Linie, wenn es eine groß angelegte Sammlung ist, ist es empfehlenswert, eine statische Wohn-IP kaufen
F: Warum empfehlen Sie ipipgo?
A: Ihr IP-Pool hat drei große Vorteile: 1) echte private Netze 2) automatische Trennung bei jeder Sitzung 3) Unterstützung für die Filterung von Betreibern nach ASN-Nummer
F: Was kann ich sammeln, das mir auf die Zehen tritt?
A: Preis-Daten ist relativ sicher, nicht berühren die Benutzer-Bewertungen und persönliche Informationen, hüten Sie sich vor dem Essen DSAR Beschwerden (siehe Amazon Politik)
Sagen Sie die Wahrheit.
Ich habe zu viele Leute gesehen, die denken, dass es einfach ist, die Einhaltung der Vorschriften zu erwerben, und die denken, dass sie mit einer Proxy-IP tun können, was sie wollen. In Wirklichkeit ist es eineSystemtechnikDas erste, was ich tun möchte, ist eine reale Person zu simulieren, von der IP-Qualität auf Anfrage Trajektorie. Kürzlich habe ich einem 3C-Verkäufer geholfen, das Programm mit dem Proxy-Service von ipipgo mit der Optimierung der Anfragebahn durchzuführen, die 7 Monate lang kontinuierlich und stabil lief, ohne umzukippen.
Eine letzte Erinnerung: Verstricken Sie sich nicht in Kontoverbindungen! Verwenden Sie unbedingt verschiedene Geschäftskonten!Unterschiedliche IP-Segmente + unterschiedliche GeräteumgebungenDies ist wichtiger als die Sammlung selbst. Denn wenn Sie die Daten verlieren, können Sie sie wieder einsammeln, aber wenn Ihr Konto gesperrt wird, müssen Sie wieder von vorne anfangen.

