
Erstens: Warum starrt Sie das CAPTCHA immer an?
engagiert in Crawling-Partner müssen diese Situation begegnet sein: gerade packte zwei Seiten von Daten auf dem CAPTCHA Pop-up. In der Tat, das ist die Website durch dieErkennung der IP-ZugangsfrequenzIm Spiel. Normale Benutzer fordern nicht 50 Mal in 10 Sekunden Daten an, aber Crawler schon. Die Lösung ist einfach: Verwenden Sie den Dynamic Residential Proxy von ipipgo, um einzelne IP-Anfragen auf verschiedene Exit-IPs zu verteilen, so dass die Website den Eindruck erweckt, sie werde von mehreren echten Nutzern betrieben.
Zweitens: einfache und grobe OCR-Erkennungsmethode
Geraten Sie nicht in Panik, wenn Sie auf ein numerisch-alphanumerisches CAPTCHA stoßen, sondern versuchen Sie zunächst, eine tesserocr-Bibliothek zu installieren. Verwenden Sie den Proxy-Pool von ipipgo, um die IPs zu wechseln, um zu vermeiden, dass Sie durch häufige Versuche gesperrt werden. Code-Beispiel (Python):
Anfragen importieren
von PIL importieren Image
importieren tesserocr
with requests.get('CAPTCHA-Adresse', proxies=ipipgo.get_proxy()) as res:: image = Image.open(BytesIO(res.content))
image = Image.open(BytesIO(res.content))
print(tesserocr.image_to_text(image))
Beachten Sie, dass zum Einstellen des Bildes Grauwert und Binarisierung Schwelle, die spezifischen Parameter müssen versuchen, sich selbst. ipipgo's Proxy-IP wird automatisch ersetzt jedes Mal, keine Angst vor Versuch und Irrtum blockiert ist.
III. die Simulation des Verhaltens von Mensch und Computer
Advanced CAPTCHA erkennt Mausspuren und Klickintervalle. Dies wird mit Selenium durchgeführt, um eine echte Person zu simulieren:
from selenium.webdriver import ActionChains treiber = webdriver.Chrome() driver.get(url) ActionChains(driver).move_by_offset(10,20).click().perform()
Denken Sie daran, es mit ipipgo'sWohnungsvermittlerMit dieser Methode können Sie das gleitende CAPTCHA von 90% täglich umgehen.
IV. verteilte Sprengungen der Taw-Operationen
Verteilen Sie die Aufgaben, wenn es sich um besonders schwierige CAPTCHAs handelt. Verwenden Sie Redis für die Aufgabenwarteschlange und lassen Sie sie auf 20 Servern gleichzeitig laufen:
while True: task = redis.rpop('task_queue')
Aufgabe = redis.rpop('Aufgabe_Warteschlange')
ergebnis = process(aufgabe)
redis.lpush('result_queue', ergebnis)
Jeder Rechner verwendet einen separaten IP-Ausgang von ipipgo, wodurch sich die Erfolgsquote direkt verdoppelt. Wir haben realistisch getestet, dass das Knacken von 4-stelligen CAPTCHAs mit dieser Methode 18-mal schneller ist als mit einem Einzelplatzrechner.
V. Schwarze Technologie für Protokolltarnung
Einige Websites erkennen HTTP-Header-Merkmale. Verwenden Sie die erweiterten Einstellungen von Anfragen:
headers = {
'Accept-Language': 'zh-CN,zh;q=0.9',
'X-Forwarded-For': ipipgo.get_random_ip()
}
Es geht darum, den User-Agent nach dem Zufallsprinzip zu generieren. Die IP-Bibliothek von ipipgo verfügt über eine X-Forwarded-For-Tarnung, die die Protokollerkennung von 80% täuschen kann.
Sechs, Kodierungsplattform-Mischtechniken
Kann nicht wirklich den Verifizierungscode zu finden manuelle Codierung Plattform. Aber achten Sie auf zwei Punkte: 1) verschiedene IP verwenden, um den Verifizierungscode 2) Kontrolle der Häufigkeit der Anrufe zu übermitteln. Es wird empfohlen, ipipgo zu verwendenLanglebige statische IPRichten Sie einen festen Kanal ein, damit die Kodierungsplattform Anomalien aufgrund häufiger IP-Wechsel nicht falsch einschätzt.
VII. die ultimative IP-Stealth-Methode
Der Schlüssel zur Anwendung einer Kombination der oben genannten sechs Methoden ist ein gutes IP-Management. Zeigen Sie eine reale Konfigurationstabelle:
| Nehmen Sie | Empfohlener IP-Typ | Schalthäufigkeit |
|---|---|---|
| OCR-Erkennung | Dynamische Wohn-IP | Alle 5 Schalter |
| Verhaltenssimulation | Langlebige statische IP | Umschaltung alle 30 Minuten |
| verteilte Strahlung | Serverraum-IP-Pool | Schalten auf Anfrage |
Denken Sie daran, das Auto-Switching-Modul von ipipgo in den Code zu integrieren. Die API-Rückgabegeschwindigkeit ist nach Messungen 40% schneller als bei anderen Anbietern, und es gibt keinen Kettenabbruch während der Spitzenzeiten.
Häufig gestellte Fragen QA
F: Kann ich herausgefunden werden, wenn ich eine Proxy-IP verwende?
A: Wählen Sie ipipgo's High Stash Proxy, der Request Header wird die X-Proxy Information entfernen, der Server kann nur die Export IP sehen
F: Was sollte ich tun, wenn die Erfolgsquote beim Knacken von CAPTCHA niedrig ist?
A: Zur gleichen Zeit mit mehr als 3 Methoden, wie die erste OCR-Erkennung Fehler und verwenden Sie dann die Codierung Plattform, verschiedene Methoden mit verschiedenen IP-Kanäle
F: Wie kann ich verhindern, dass meine IP-Adresse gesperrt wird?
A: ipipgo's intelligentes Routing wird automatisch die IP von der Website markiert, die tatsächliche Nutzung der Sperrung Rate fiel 70%
F: Muss ich einen eigenen IP-Pool unterhalten?
A: Das ist überhaupt nicht nötig, denn der Cloud-IP-Pool von ipipgo wird täglich mit 20%IP aktualisiert, was viel problemloser ist als ein selbst erstellter IP-Pool.

