
Ein Trick, mit dem Sie lernen, die Kerndaten von Stellenbörsen zu verstehen
Kürzlich, ein Headhunter Kumpel und ich gießen bitter, sagte, dass jetzt ist es mehr und mehr schwierig, Menschen zu graben. Unternehmen, um das Gehalt und die Behandlung der eng versteckt, im Wettbewerb um das Unternehmen die Rekrutierung Informationen ist auch wie ein Rätsel. In der Tat, diese Sache mit den richtigen Werkzeugen, und öffnen Sie Ihren eigenen Kühlschrank, um Lebensmittel zu finden fast einfach - der Schlüssel, um den richtigen Schlüssel zu finden.
Nehmen wir die gängigsten Jobbörsen als Beispiel: Sie haben drei Achsen, um Crawler zu verhindern:IP-Sperre, Beschränkung der Zugriffsfrequenz, Erkennung von VerhaltensspurenIch bin mir nicht sicher, ob ich jemals ein Problem damit hatte. Letztes Jahr gab es einen Freund, der Gehaltsanalysen durchführte. Er schrieb sein eigenes Skript und ließ es zwei Tage lang laufen, woraufhin mehr als 20 IPs blockiert wurden, so dass er so wütend war, dass er fast seine Tastatur zerschlug.
Es ist an der Zeit, den Killer in uns zu wecken.Hochversteckte SOCKS5-Proxy-IPDer wichtigste Unterschied zwischen diesem Ding und einem normalen Proxy ist, dass es wie das Tragen eines Mantel der Geheimhaltung ist. Der größte Unterschied zwischen dieser Sache und der gewöhnlichen Proxy, wie das Tragen einer Unsichtbarkeit Mantel Einkaufen, kann die Website nur sehen, die Proxy-Server-Informationen, völlig unfähig, den Rand Ihrer realen IP zu berühren. Vor allem mit ipipgo Hause Wohn-IP-Ressourcen, jede IP ist ein echtes Zuhause Netzwerk-Umgebung, Rekrutierung Websites, die Anti-Climbing-System kann einfach nicht zwischen echten Menschen besuchen oder Maschinenbetrieb zu unterscheiden.
Sie lernen, wie man ein Datenerfassungssystem aufbaut
Lassen Sie uns zunächst über einen realen Fall sprechen: Ein Unternehmen der Personalabteilung nutzte den SOCKS5-Agenten von ipipgo, um in drei Monaten mehr als 500.000 Einstellungsinformationen abzufangen. Der verantwortliche Techniker sagte: "Die IP ist fleißiger als ein Sockenwechsel, aber die Erfolgsrate ist bei 95% oder mehr eingefroren."
Wie genau funktioniert das? Denken Sie an diese drei Punkte:
1. die IP-Rotationsstrategie sollte "wellenförmig" genug sein
Seien Sie nicht dumm fix 5 Minuten, um die IP zu ändern, ist dies leicht zu erkennen statt. Es wird empfohlen, die dynamische Wohn-IP von ipipgo zu verwenden und ein zufälliges Wechselintervall (zwischen 30 Sekunden und 5 Minuten) festzulegen, damit das Anti-Climbing-System der Website das Muster nicht erkennen kann.
2. die Anfragen sollten ein "Gesicht" haben.
Es reicht nicht aus, nur die IP-Adresse zu ändern, Sie müssen auch die Parameter User-Agent und Referer nach dem Zufallsprinzip ändern. So wie Sie jedes Mal, wenn Sie ausgehen, nicht nur Ihre Kleidung, sondern auch Ihr Aussehen ändern, damit Sie sicher genug sind.
| Parameter | Camouflage-Technik |
|---|---|
| Benutzer-Agent | Logos für mehr als 20 verschiedene Browserversionen vorbereiten |
| Zugriffsintervall | Einstellung einer zufälligen Verzögerung von 0,5-3 Sekunden |
| Klicken Sie auf den Pfad | Nachahmung der Surfgewohnheiten echter Menschen (sehen Sie sich die Angebotsseite an, bevor Sie sich die Details ansehen) |
3. "Totstellen" bei der Behandlung von Ausnahmen
Wenn Sie ein CAPTCHA, nicht hart sein, sofort die Aufgabe der aktuellen IP. ipipgo's API unterstützt automatische offline abnorme IP, und warten Sie für einen Zeitraum von Zeit und dann ruhig töten ein Pferd erschossen.
Drei knallharte Tipps für die Gehaltsanalyse
Es ist nicht gut, Daten zu haben, die man nicht nutzen kann, also werde ich Ihnen ein paar Tricks beibringen:
① Job-GehaltsstufenDie gleiche Stelle, um den Median zu nehmen, mit verschiedenen Unternehmen verglichen, um die Preislücke zu öffnen. Zum Beispiel, eine große Fabrik JAVA Entwicklung Post zu 35k, kann der Wettbewerb nur wagen, zu 28k, die die Feuchtigkeit ist die Gelegenheit, Headhunter zu öffnen.
② Verborgene Vorteile KlopfenDie Schlagworte "Jahresendprämie" und "Aktienoptionen" tauchen häufig auf, und die wahren Vorteile vieler Unternehmen verbergen sich in diesen Begriffen und Phrasen.
③ Überwachung des RekrutierungstemposEin plötzlicher Anstieg der Einstellungszahlen für eine bestimmte Stelle entspricht wahrscheinlich einer Erweiterung des Geschäftsbereichs. Letztes Jahr hat sich ein Kunde darauf verlassen, um die Nachricht von der Auflösung des Autopilot-Teams einer großen Fabrik im Voraus zu erfahren.
Häufig gestellte Fragen QA
F: Ist es legal, Daten mit einer Proxy-IP zu sammeln?
A: Solange Sie die normale Zugriffsberechtigung der Website nicht verletzen, gibt es kein Problem, öffentliche Informationen zu sammeln. ipipgo alle IPs kommen aus konformen Kanälen, genau wie die Verwendung verschiedener Mobiltelefone, um die Website der gleichen Art zu bürsten.
F: Wie wählt man zwischen dynamischer IP und statischer IP?
A: hochfrequentes Sammeln mit dynamischer Wohn-IP (ipipgo unterstützt automatische Rotation), langfristiges Überwachen bestimmter Seiten mit statischer Wohn-IP. Versuchen Sie nicht, billige Rechenzentrums-IP zu verwenden, Baustellen starren jetzt auf diese Art von IP-Siegel.
F: Was sollte ich tun, wenn ich auf ein CAPTCHA stoße?
A: drei Schritte: ① sofort zu einer neuen IP wechseln ② die Erfassungshäufigkeit reduzieren ③ ipipgo's Anfrage-Intervall-Randomisierungsfunktion verwenden. Wirklich nicht umgehen können und dann prüfen, Kodierung Plattform, aber die Kosten werden in die Höhe schießen.
Letztendlich ist die Datenerfassung ein Katz- und Mausspiel. Letztes Jahr eröffnete ein Kunde 30 Crawler-Prozesse zur gleichen Zeit, mit ipipgo's globalen Knoten Ressourcen zu spielen "Guerilla-Krieg", schwer zu einer Baustelle Job-Update-Überwachung auf Echtzeit-Ebene. Denken Sie daran, Proxy-IP ist nicht der Schlüssel zu allem, aber wählen Sie den richtigen Dienstleister (wie unsere Familie ipipgo), zumindest können Sie Ihre Crawler weniger 80% Umweg.

