
Erstens: Warum ist es so schwierig, Daten über die tatsächliche Einstellung von Personal zu erhalten?
Das größte Problem bei der Suche nach Stellenangeboten auf Indeed sind dieIP gesperrtIch bin mir nicht sicher, ob Sie ein Fan dieser Website sind. Diese Website ist wie eine Tür Gott, fangen die gleiche IP wild kratzen, um Ihnen eine schwarze Liste. Im vergangenen Monat, meine Kollegen glauben nicht an das Böse, mit ihren eigenen Computern auch kletterte 3 Stunden, die Ergebnisse der gesamten Büro-Netzwerk kann nicht anmelden In der Tat, der Chef fast zertrümmert seinen Monitor...
Hier ist ein Vergleich mit realen Daten:
| Erfassungsmethode | Durchschnittliche Überlebenszeit | Erfolgsquote |
|---|---|---|
| Barebones Direktverbindung | 15 Minuten. | 23% |
| Allgemeiner Proxy-Pool | 2 Stunden | 67% |
| ipipgo dynamische ip | 8 Stunden + | 91% |
(Anmerkung: die Testumgebung für die tägliche Erfassung von 50.000 Datenvolumen)
Zweitens, wie man den Proxy-IP nicht auf die Grube Schritt zu wählen?
Proxy-IP auf dem Markt mit Taobao 9,9 Versanddaten Linie wie, schauen Sie sich die billige Nutzung bis zum Tod. Die Auswahl eines Proxy hat drei harte Indikatoren zu erkennen:
1. Ausreichende Anzahl von IPs: Bei einem Pool von 10 Millionen IPs wie ipipgo erkennt die Website nicht einmal, dass sie bei jeder Anfrage eine neue Weste trägt!
2. Die Umschaltgeschwindigkeit ist schnell genugEs ist besser, die IP-Adresse automatisch in Millisekunden zu ändern, anstatt eine halbe Minute zu warten, bis die gesamte IP-Adresse geändert ist.
3. geographisch genauWenn Sie z. B. einen US-Posten erobern wollen und Ihnen eine indische IP zugewiesen wird, werden Sie sofort enttarnt.
Ich habe zuvor einen bestimmten Agenten verwendet, der IP ist ziemlich viel, aber sobald die Job-Informationen mit Bengali gemischt werden, dann habe ich herausgefunden, dass ihre IP-Positionierung überhaupt nicht genau ist. Nachdem ich zu ipipgo gewechselt habe, kann ich den IP-Standort auf Stadtebene angeben, und die lokalisierten Jobs sind sehr stabil.
Drittens, die Hand, die Ihnen beibringt, das Sammelsystem zu bedienen
Hier ist ein Python-Beispiel, das die requests-Bibliothek + ipipgo verwendet, um eine intelligente IP-Umschaltung zu implementieren:
importiert Anfragen
von itertools importieren Zyklus
Liste der Proxys von ipipgo (denken Sie daran, den API-Schlüssel durch Ihren eigenen zu ersetzen)
PROXY_LIST = [
"http://user:pass@gateway.ipipgo.com:8000",
"http://user:pass@gateway.ipipgo.com:8001", ...
... Weitere Proxy-Knoten
]
proxy_pool = cycle(PROXY_LIST)
def get_jobs(keyword):
for _ in range(3): fail retry 3 mal
proxy = next(proxy_pool)
try.
resp = requests.get(
f "https://www.indeed.com/jobs?q={Schlüsselwort}",
proxies={"http": proxy, "https": proxy}, timeout=10
timeout=10
)
Parsen des Seitencodes...
Daten zurückgeben
except Exception as e.
print(f "Crawling mit {proxy} fehlgeschlagen, IPs automatisch gewechselt...")
return Keine
Achten Sie auf zwei Schlaglöcher:
1. Anfrage Häufigkeit ist nicht zu hart, ist es empfehlenswert, dass jeder Antrag 3-5 mal auf die Initiative zu ändern IP
2. eine zufällige Verzögerung von 0,5-2 Sekunden hinzufügen, damit es so aussieht, als ob eine echte Person dies tut.
IV. häufig gestellte Fragen QA
Q:Warum wurde ich gesperrt, obwohl ich eine Proxy-IP verwendet habe?
A: 80% von ihnen benutzen einen gemeinsamen IP-Pool, zu viele Leute benutzen das gleiche Segment. ipipgo's exklusiver IP-Pool kann dieses Problem vermeiden, jeder Benutzer hat ein eigenes IP-Segment.
F: Was sollte ich tun, wenn die Proxy-IP-Antwort langsam ist?
A: Wählen Sie einen Proxy-Dienst, der das HTTP2-Protokoll unterstützt, wie z. B. die High-End-Knoten von ipipgo mit Standleitung, die mehr als 3-mal schneller sind als gewöhnliche Proxys.
F: Was ist, wenn ich eine globale Position einnehmen muss?
A: Im Hintergrund der ipipgo direkt wählen Sie die multinationale IP-Hybrid-Modus, wird automatisch das entsprechende Land die Ausfuhr IP, Pro-Test, um die australische Post mit dem lokalen IP Erfolgsquote in die Höhe geschnellt zu fangen.
V. Vollständige Liste der Instandhaltungstechniken
1. IP-GesundheitscheckAutomatischer Test der IP-Verfügbarkeit in den frühen Morgenstunden eines jeden Tages, um ausgefallene Knotenpunkte zu eliminieren
2. VerkehrsentzerrungVerwenden Sie eine einzelne IP nicht über einen längeren Zeitraum, setzen Sie ein tägliches Traffic-Limit für eine einzelne IP.
3. Überwachung von AusnahmenWenn 5 aufeinanderfolgende IPs ausfallen, wird sofort ein SMS-Alarm ausgelöst.
4. UA-TarnungMit dem IP-Ersatz von ipipgo wird der User-Agent jedes Mal zufällig geändert.
Schließlich sagte ein Trick: die ipipgo API-Zugang zu den Crawler Scheduling-System, Echtzeit-Reaktionsgeschwindigkeit nach automatisch den optimalen Knoten zu wechseln. Unser Projektteam mit dieser Reihe von Lösungen, wurde eine stabile 7 Monate nicht umdrehen, jeden Tag ruckeln eine Million Daten zu spielen, wie.

