
Die häufigsten Fallstricke beim Crawling von Craigslist-Daten.
Die Brüder, die sich mit Webcrawling beschäftigt haben, wissen, dass Craigslist, eine alte Kleinanzeigenseite, besonders gerne IPs sperrt. Letzten Monat habe ich einem Freund geholfen, Daten über Gebrauchtwagen zu bekommen, und habe meinen eigenen Server benutzt, um mehr als 200 Artikel zu erfassen, die plötzlich einen 403-Fehler zurückgaben. Außerdem wurde das gesamte IP-Segment des Serverraums gesperrt, so dass ich vor dem Computer hocken und eine halbe Schachtel Zigaretten rauchen musste, bevor ich mich beruhigen konnte.
Spätere Tests ergaben drei Hauptmerkmale der Blockierungsstrategie von Craigslist:Die Geschwindigkeit der IP-Sperrung ist schneller als die Lieferung von Lebensmitteln durch Meituan-Jungenundjemanden mit derselben IP-Adresse sperrenundVerzeihendere Behandlung von IP in WohngebietenDas erste, was Sie tun müssen, ist eine Proxy-IP zu verwenden. Normale Serverraum-IPs überleben im Grunde nicht länger als eine halbe Stunde, weshalb Sie Proxy-IPs zur Absicherung verwenden müssen.
Die Wahl eines Proxy-IP ist wie die Suche nach einem Partner, es geht um diese drei Dinge.
Es gibt eine Fülle von Proxy-Anbietern auf dem Markt, aber es gibt nicht wirklich viele, die für Craigslist Crawling geeignet sind. Nach meiner Erfahrung, die ich beim Durchforsten von Craigslist gemacht habe, sollten Sie sich auf diese drei Kriterien konzentrieren:
| Norm | Anforderungen für die Einhaltung von Normen | ipipgo-Messdaten |
|---|---|---|
| IP-Typ | IP für Wohngebäude > IP für Serverräume | Mischung aus dynamischen und statischen Wohnsitzen |
| Verfügbarkeitsrate | >95% | 97.3% (Testdaten der letzten Woche) |
| Methode der Umschaltung | Automatische API-Umschaltung | Unterstützt das Umschalten nach Anfrage/Minute |
Hier ist ein wichtiger Hinweis auf die dynamischen IPs von ipipgo, ihreIP-Pool deckt alle 50 Staaten Nordamerikas abEinmal ließ ich den Crawler absichtlich die ganze Nacht laufen, und am nächsten Morgen sah ich mir die Statistiken an und stellte fest, dass innerhalb von 8 Stunden mehr als 300 IPs geändert worden waren, die aber nicht blockiert wurden.
Praktische Einweisung in das gesamte Live-Capture-Tool
In Python zum Beispiel besteht der Kerncode aus nur fünf Schritten:
1. gehen Sie zum ipipgo-Backend, um einen API-Schlüssel zu generieren (denken Sie daran, die nordamerikanische Wohn-IP zu wählen)
2. installieren Sie die Anforderungsbibliothek:Pip-Installationsanfragen
3. konfigurieren Sie die Proxy-Middleware:
Einfuhrgesuche
def get_proxy(): { {proxy(): {proxy(): {proxy(): {proxy()
return {
'https': 'https://用户名:密码@gateway.ipipgo.com:端口'
}
response = requests.get('https://craigslist.org', proxies=get_proxy())
4. zufällige Abfrageintervalle einstellen (3-10 Sekunden empfohlen)
5. gefälschter Benutzer-Agent (denken Sie daran, Windows und Mac mobile UA hinzuzufügen)
Seien Sie nicht zu faul und überspringen Sie Schritt 4!!! Ich habe einmal das Intervall auf 1 Sekunde eingestellt und die IP-Überlebenszeit für ipipgo fiel direkt von 6 Stunden auf 20 Minuten. Es wird empfohlen, Folgendes zu verwendentime.sleep(random.uniform(3,8))Diese zufällige Unterbrechung lässt den Besuch eher wie einen realen Vorgang erscheinen.
Anti-Blocking-Tipps von erfahrenen Autofahrern zusammengefaßt
Nach den Erfahrungen der letzten zwei Jahre, in denen wir Kunden beim Abfangen von Daten geholfen haben, können diese drei geschmacklosen Maßnahmen die Wahrscheinlichkeit einer Sperrung erheblich verringern:
- Gemischte Nutzung von ipipgo'sdynamische IPim Gesang antwortenLanglebige statische IPDie statische IP wird verwendet, um die Stabilität wichtiger Daten zu gewährleisten.
- Die UA-Bibliothek wird jeden Dienstagnachmittag (US-Zeit) aktualisiert, eine Zeit, in der die Sperrstrategie von Craigslist kurzzeitig gelockert wird
- Seien Sie nicht so streng mit CAPTCHA, der Zugriff auf eine Kodierungsplattform erspart Ihnen eine Menge Aufwand im Vergleich zur Erstellung eines eigenen Erkennungsmodells.
Häufig gestellte Fragen QA
F: Warum werde ich immer noch blockiert, auch wenn ich eine Proxy-IP verwende?
A: 80% der IP-Reinheit ist nicht genug, es wird empfohlen, ipipgo's Wohn-IP zu ändern. Seien Sie nicht gierig und verwenden Sie einen kostenlosen Proxy, diese IPs sind schon lange Craigslist in einem kleinen Buch.
F: Wie viel IP-Volumen ist pro Tag erforderlich, um ausreichend zu sein?
A: Ausgehend von 50 Anfragen pro Stunde ist es sicherer, einen Pool von 200 IPs/Tag vorzubereiten. ipipgo's Pakete beinhaltenBasispaket für 500 IP-TagesschichtenEs ist gut genug für kleine bis mittelgroße Projekte.
F: Ist Data Scraping legal?
A: Solange es nicht die Privatsphäre der Nutzer betrifft, ist es in Ordnung, die robots.txt-Regeln einzuhalten. Es wird empfohlen, nicht die Telefonnummer und E-Mail diese sensiblen Informationen zu berühren, wir greifen nur die öffentlichen Produktdaten!
Abschließend möchte ich sagen, dass die Datenerfassung ein Katz- und Mausspiel ist. Letztes Jahr habe ich sieben oder acht Proxy-Dienstleister, die letzte langfristige Zusammenarbeit oder ipipgo. ihre technischen Kundendienst einmal um zwei Uhr morgens, um mir zu helfen, debuggen die Anfrage Header, diese Art von Service in der Branche ist wirklich selten. Kürzlich sah ich die offizielle Website in den neuen Benutzer zu 5G-Flow-Aktivitäten zu senden, wollen die Grube Bruder geben kann woolgathering Versuch gehen.

