
Was ist zu tun, wenn ein Crawler auf ein Validierungs-Pop-up stößt?
Brüder in Crawling beschäftigt verstehen, stoßen die Art von Konto-Passwort zu verlieren, die meisten Kopfschmerzen der Website. Genau wie Sie zu jemandem nach Hause gehen, um an die Tür zu klopfen, muss der Pförtner Sie bitten, die Arbeitserlaubnis zu zeigen, um hereinzulassen. DiesmalGrundlegende Authentifizierungsfunktionen der AbfragebibliothekEs ist Ihr Allzweck-Arbeitspferd. Verwenden wir Python, fügen wir einfach einen Auth-Parameter in den Code ein und schon kann es losgehen:
import requests
from requests.auth import HTTPBasicAuth
response = requests.get(
'https://需要认证的网址', auth=HTTPBasicAuth('Benutzername', 'Passwort')
auth=HTTPBasicAuth('benutzername', 'passwort')
)
Aber hier kommt das Problem, einige Websites werden bei häufig besuchten IP-Blockierung starren. Diesmal müssen Sie einen zuverlässigen Proxy-Dienst finden, als ob Sie jedes Mal an die Tür klopfen, damit ein anderer Kurier die Ware ausliefert. Wir empfehlen hier die Verwendung vonProxy-Dienste für ipipgoIhr Haus bietet dynamische IPs für Privatanwender, eine perfekte Lösung für das Problem der IP-Sperrung.
Anträge unsichtbar machen
Auf den Punkt gebracht, wie man den doppelten Schutz von Proxy und Authentifizierung in Anfragen konfiguriert:
proxies = {
http': 'http://用户名:密码@ipipgo proxies:port',
'https': 'http://用户名:密码@ipipgo proxy address:port'
}
response = requests.get(
'Ziel-URL', 'https': '@ipipgo proxy address:port' }
auth=HTTPBasicAuth('Site Account', 'Site Password'),
proxies=proxies
)
Hier gibt es einen Fallstrick, auf den Sie achten sollten:Agent-Authentifizierung und Website-Authentifizierung sind zwei verschiedene DingeDas erste, was Sie tun müssen, ist, sich die Hände schmutzig zu machen! Als ob Sie die Community-Tor (Proxy-Server) zu betreten haben, um die Zugangskarte zu bürsten, in die Zelle Gebäude (Ziel-Site) und müssen das Passwort eingeben. ipipgo Proxy-Paket mit doppelter Authentifizierung Schutz, ist es empfehlenswert, dass sie die wählenPrivatagent-PaketDie Authentifizierungsinformationen sind für jede Proxy-IP eindeutig.
Praktischer Leitfaden zur Vermeidung der Grube
Nennen Sie ein paar häufige Fallouts für Neulinge:
- Falsches Protokoll für Proxy-Adresse (https-Website mit http-Proxy)
- Authentifizierungsinformationen mit Sonderzeichen, die nicht URL-codiert sind
- SSL-Zertifikatsüberprüfung wird nicht behandelt (mit dem Parameter verify=False)
Nennen Sie ein Beispiel für die richtige Schreibweise:
from urllib.parse import quote
Behandlung spezieller Passwörter
safe_pass = quote('abc@123')
proxies = {
'https': f'http://ipipgo_user:{safe_pass}@proxy.ipipgo.com:9020'
}
QA Time: Fragen und Antworten mit hoher Frequenz
F: Warum wird sie auch nach Verwendung eines Proxys noch erkannt?
A: Überprüfen Sie den Proxy-Typ, empfehlen Sie den von ipipgoHochversteckte AgentenDie tatsächliche IP ist vollständig verborgen.
F: Wie gehe ich damit um, dass sowohl die Authentifizierung des Agenten als auch die Authentifizierung der Website erforderlich ist?
A: Wie im vorhergehenden Codebeispiel sollten die Parameter proxies und auth getrennt gesetzt werden
F: Wie lässt sich prüfen, ob das Mittel wirksam ist?
A: Sie können zunächst httpbin.org/ip besuchen, um die zurückgegebene IP-Adresse zu überprüfen
Warum ipipgo?
Ein praktischer Vergleich der Leistung der drei Proxy-Anbieter:
| Norm | Generalvertreter | ipipgo-Vollmacht |
|---|---|---|
| Erfolgsquote der Verbindung | 78% | 99.2% |
| Durchschnittliche Reaktionsgeschwindigkeit | 1200ms | 280ms |
| Wahrscheinlichkeit eines Verbots | 3-5 Mal pro Stunde | ≤2 Mal pro Monat |
Insbesondere ihreIntelligente Routing-TechnologieEs kann automatisch die optimale Knoten entsprechen. Das letzte Mal, um Kunden zu helfen, Regierung Datenerhebung, mit gewöhnlichen Agenten in der Überprüfung Sitzung eine halbe Stunde stecken, ändern ipipgo Agent nach 10 Minuten, um alle die Sammlung Aufgabe zu bekommen.
Sprechen Sie aus dem Herzen.
Proxy ist wie ein Werkzeug zum Schlösserknacken, wenn man es gut benutzt, verbessert sich die Effizienz, wenn man es schlecht benutzt...(Sie wissen schon). Ich empfehle, zunächst ipipgo zu verwenden.Pay-per-Use-PaketDas erste, was ich tun möchte, ist es zu testen, bevor ich es Batch. Ihre technischen Kundendienst ist wirklich 7 × 24 online, die letzten drei Uhr morgens Begegnung Agent Konfiguration Probleme, tatsächlich Sekunden zurück zu der Lösung, ist dieser Punkt wirklich gewissenhaft.

