
Praktische Erfahrung mit der Erfassung der LinkedIn-Dynamik von Unternehmen
In letzter Zeit fragen sich viele Freunde, die im Außenhandel tätig sind, wie können wir über die Dynamik der Zielunternehmen auf dem Laufenden bleiben? Zum Beispiel, die Freigabe von neuen Produkten, Executive Änderungen in diesen wichtigen Informationen. Sich auf die manuelle Erfassung zu verlassen, ist sicherlich unrealistisch, um hier jedem einen Trick zu geben - mit Python ein automatisiertes Erfassungsskript zu schreiben. Aber es gibt einen Fallstrick, auf den man besonders achten sollte.Häufige Besuche auf LinkedIn direkt von Ihrer eigenen IP aus können dazu führen, dass Ihr Konto innerhalb weniger Minuten gesperrt wird!.
Ich bin letzte Woche auf dieses Problem gestoßen, als ich einem Kunden bei der Durchführung einer Wettbewerbsanalyse geholfen habe. Zuerst verwendete ich meinen eigenen Computer, um das Skript laufen zu lassen, holte nur 20 Daten ab, die Seite sprang plötzlich zum CAPTCHA, und am nächsten Tag konnte sich das Konto nicht direkt anmelden. Später wechselte ich zu einer dynamischen Proxy-IP, um das Problem zu lösen.ipipgoDer Wohnagenten-Service, persönlich getestet für 8 Stunden kontinuierliche Sammlung ohne Probleme.
Warum muss ich eine Proxy-IP verwenden?
Der Anti-Crawl-Mechanismus von LinkedIn ist viel intelligenter, als wir denken, und erkennt vor allem drei Dinge:
| Prüfling | Antwortprogramm |
| Häufigkeit der Anfragen | Kontrolle der Anzahl der Anfragen pro Sekunde |
| IP-Adresse | Dynamische Vermittler |
| Header-Fingerabdruck der Anfrage | Zufällige Generierung von Benutzer-Agenten |
Vor allem in Bezug auf die IP-Adresse ist die Verwendung eines Proxys für Wohngebiete zuverlässiger als ein Proxy für Serverräume. Nehmen Sie den Service von ipipgo als Beispiel, deren IP-Pool sind echte Benutzer der realen Netzwerkumgebung, höherer Grad der Tarnung. Der letzte Test mit dem IP-Raum kann nur eine halbe Stunde dauern, ändern Sie die Wohn-Proxy nach einem stabilen Lauf für 3 Tage.
Beispiel-Code
Hier ist eine einfache Version des Codes für Python, die sich auf den Teil der Proxy-Konfiguration konzentriert:
Anfragen importieren
from random importieren Wahl
Liste der Proxys von ipipgo
proxies = [
"http://user:pass@gateway.ipipgo.com:8000",
"http://user:pass@gateway.ipipgo.com:8001"
]
headers = {
User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
def get_company_updates(company_id):: { 'User-Agent': 'Mozilla/50 (Windows NT 10 0; Win64; x64 AppleWebKit/537 36' }
try: resp = requests.get(company_id).
resp = requests.get(
f "https://linkedin.com/company/{company_id}/posts",
proxies={'http': choice(proxies)},
headers=headers,
timeout=10
)
return resp.text
except Exception as e.
print("Crawl-Fehler:", str(e))
zur Kenntnis nehmenZufällige Auswahl einer Proxy-IP für jede AnfrageDieses Detail macht den Unterschied zwischen Erfolg und Misserfolg aus. Ich habe schon öfter versucht, mit derselben IP-Adresse zuzugreifen, und beim fünften Mal war der Zugang eingeschränkt. Es gibt noch einen weiteren Vorteil bei der Verwendung des dynamischen IP-Pools von ipipgo: Die API unterstützt den automatischen Austausch von IPs, was Ihnen im Vergleich zur Pflege Ihrer eigenen Proxy-Liste Zeit und Mühe erspart.
Ein Leitfaden für häufige Fallstricke
F: Warum ist die Website auch nach der Verwendung eines Proxys noch gesperrt?
A: Überprüfen Sie an zwei Stellen: 1. es handelt sich nicht um eine zufällige Änderung im Request-Header 2. die Qualität der Proxy-IP ist nicht zu Ende. Einige kostenlose Proxys sehen aus, als ob sie funktionieren, aber in Wirklichkeit sind sie schon lange auf der schwarzen Liste von LinkedIn!
F: Wie lässt sich die Erfassungsfrequenz angemessen steuern?
A: Es wird empfohlen, dass ein Intervall von 30 Sekunden oder mehr zwischen den einzelnen Firmenseiten mit der automatischen 5-Sekunden-IP-Wechselfunktion von ipipgo persönlich getestet wird, da diese Konfiguration am stabilsten ist!
F: Was sollte ich tun, wenn ich auf ein CAPTCHA stoße?
A: Beenden Sie sofort die Sammelaufgabe der aktuellen IP, wechseln Sie zu einer neuen IP und reduzieren Sie die Sammelhäufigkeit. Der technische Support von ipipgo kann Ihnen bei der Konfiguration einer spezifischen IP-Wechselpolitik helfen.
Warum ipipgo?
Es gibt eine Fülle von Agenturdienstleistern auf dem Markt, aber es gibt nicht viele, die speziell für die Erfassung von LinkedIn optimiert sind. Ihre Familie hat drei Killerfunktionen:
- Mehr als 5 Millionen private IPs weltweit, in 190 Ländern
- Automatische IP-Rotation API, Unterstützung der Umschaltung nach Zeit/Anzahl der Anfragen
- Spezielles Programm zur Konfigurationserfassung durch den Kundendienst (angeblich können Sie unter Angabe des Codeworts "LinkedIn666″ exklusive Rabatte anfordern)
Abschließend sei daran erinnert, dass Proxy-IPs zwar die meisten Probleme lösen, die genaue Implementierung derEinhaltung der Website-Regeln. Es wird empfohlen, die Erhebungszeit in die Arbeitszeiten der Zielunternehmen zu legen, z. B. in die Arbeitszeiten europäischer und amerikanischer Unternehmen, damit das Verhalten näher an den realen Arbeitsabläufen der Menschen ist.

