
A. Warum wird Ihr Crawler immer blockiert? IP-Adresse ist offengelegt!
Kürzlich beschwerte sich ein Freund, der E-Commerce betreibt, bei mir, dass das von ihm geschriebene Crawler-Skript nach drei Tagen Laufzeit blockiert wurde. Ich warf einen Blick auf die Log-Einträge und fand, dass das Problem - dieser Kumpel mit seinem eigenen Breitband-IP starren Plattform Anti-Climbing-System, verdient zu blockieren ah! Wie in den Supermarkt zu gehen, um zu versuchen, jedes Mal zu essen, um die gleiche fluoreszierende grüne Jacke zu tragen, die Sicherheitskräfte nicht auf Sie starren, um zu starren, wer?
Hier ist eine.Wichtige WissenspunkteDas System zur Kontrolle der Windverhältnisse auf der Website erkennt abnormalen Datenverkehr anhand der IP-Adresse. Wenn Sie immer dieselbe IP-Adresse für hochfrequente Zugriffe verwenden, wird der Datenverkehr begrenzt, wenn er gering ist, oder dauerhaft gesperrt, wenn er hoch ist. Die Lösung ist einfach: Lassen Sie das Programm wie einen echten Benutzer handeln.Jeder Besuch trägt eine andere "Web-ID".(auch bekannt als IP-Adresse).
II. Sie lernen, wie man einen "virtuellen Personalausweis" erstellt
Bereiten Sie zunächst das Rohmaterial vor (die zu installierende Bibliothek):
pip install faker Anfragen
Oberer Hardcore-Code (mit ausführlichen Kommentaren):
von faker import Faker
import random
def generate random IP()::
Chinesische Variablennamen verwenden, um mehr Bodenhaftung zu haben
Virtueller ID-Generator = Faker()
Zufällige Auswahl eines allgemeinen IP-Segments in China
Provinzieller IP-Pool = {
'zhejiang': ['36.26', '122.225'],
'Peking': ['123.113', '210.75']
}
Zufällige Provinz = random.choice(list(province IP pool.keys()))
erste drei Segmente = random.choice(province IP pool[random province])
letztes Segment = str(random.randint(1,254)) vermeidet 0 und 255
return f"{erste drei Segmente}. {random.randint(1,254)}. {Absatz beenden}"
Drittens: Wie kann man die generierte IP sicher verwenden?
Achtung! Es funktioniert nicht, wenn Sie gefälschte IPs direkt in die Anfragen einfügen, sondern Sie müssen einen Proxy-Server für die Weiterleitung verwenden. Wir empfehlen hier die Verwendung vonHochwertige Proxy-Dienste von ipipgoSie bieten ein Paket an, das besonders für Einsteiger geeignet ist:
| Paket Typ | Anzahl der IPs | Anwendbare Szenarien |
|---|---|---|
| Schnupperpaket für Neulinge | 500 pro Tag | Kleine Datenerfassung |
| Exklusive Edition für Unternehmen | unbegrenzt | Langfristiges Crawler-Geschäft |
Beispiel eines Live-Codes (bitte ersetzen Sie ihn durch Ihr eigenes ipipgo-Konto):
Einfuhrgesuche
proxy settings = {
'http': 'http://用户名:密码@gateway.ipipgo.com:9020',
'https': 'http://用户名:密码@gateway.ipipgo.com:9020'
}
response = requests.get('destination url', proxies=proxy settings, timeout=10)
Viertens, der alte Fahrer kennt nur die Anti-Blockier-Fähigkeiten
1. IP-SchalttempoSeien Sie nicht zu regelmäßig, halten Sie zufällig an wie ein echter Mensch.
2. in Verbindung mit dem User-Agent-Zufallsgenerator (empfohlene fake_useragent-Bibliothek)
(3) Für wichtige Datenerhebungen wird die Verwendung von ipipgo empfohlen.Langlebige statische IPDie Stabilität ist 3 Mal höher als bei dynamischen IP
4) Seien Sie nicht zu hart, wenn es um CAPTCHA geht, gehen Sie zu einer Kodierungsplattform, wenn Sie müssen.
V. Häufig gestellte Fragen QA
F: Kann ich meine eigene generierte IP verwenden?
A: Die generierte Fake-IP kann nur zum Fälschen von Anfrage-Headern verwendet werden, die eigentliche Netzwerkanfrage muss über einen regulären Proxy-Server wie ipipgo laufen.
F: Was ist zu wählen, dynamische IP oder statische IP?
A: Kurzfristige Sammlung mit dynamischer IP (billig), langfristiges Geschäft mit statischer IP (stabil). ipipgo Hintergrund kann immer den Typ wechseln.
F: Was sollte ich tun, wenn meine Proxy-IP langsam ist?
A: Filtern Sie Knoten mit einer Latenzzeit von weniger als 50 ms in der ipipgo-Konsole. Es wird empfohlen, die Auswahl der IP-Segmente in der Provinz zu priorisieren.
Abschließend möchte ich noch etwas sagen, das mir aus dem Herzen spricht: Datenerfassung ist wie ein Katz- und Mausspiel, man kann mit den richtigen Tools mit halbem Aufwand das doppelte Ergebnis erzielen. Ich habe vor kurzem die Unternehmensversion von ipipgo benutzt, deren Techniker auch bei der Anpassung der Anti-Blocking-Strategie helfen können, die einer der wenigen zuverlässigen Akteure im Proxy-Dienst ist.

