
Erstens: Warum BeautifulSoup verwenden?
Jeder, der schon einmal Daten gecrawlt hat, hat davon gehört, und BeautifulSoup ist, offen gesagt, eineWebseiten-ParserDas erste, was Sie tun müssen, ist, BeautifulSoup zu verwenden, die den unordentlichen HTML-Code in eine Baumstruktur verwandeln kann, die leicht zu manipulieren ist. Zum Beispiel wollen Sie abholen den Preis von Waren aus einem Schatz, mit Anfragen an die Web-Seite, BeautifulSoup drei fünf entfernt zwei kann aus dem Preis Zahlen eingegeben werden.
Anfragen importieren
von bs4 importieren BeautifulSoup
url = 'https://example.com/product'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
preis = soup.find('span', class_='preis').text
Zweitens, die Installationsschritte im Detail (Windows/Mac Universalversion)
Hier gibt es zwei Szenarien:Installation mit pipim Gesang antwortenmanuelle Installation. Beginnen wir mit dem Einfachsten:
Normale Installation (denken Sie daran, zuerst die Python-Umgebung zu installieren)
pip install beautifulsoup4
Installation einer bestimmten Version (einige ältere Projekte erfordern eine bestimmte Version)
pip install beautifulsoup4==4.9.3
Wenn die Installation auf Folgendes stößtInternet-Troll (Agent provocateur in Foren usw.)wie z. B. die Meldung eines Fehlers SSLError oder Timeout, ist es an der Zeit, dieProxy-Dienste für ipipgoNach oben. Tun Sie dies in der Befehlszeile:
pip install --proxy=http://用户名:密码@proxy.ipipgo.cn:端口 beautifulsoup4
Drittens: Proxy IP und der goldene Partner von BeautifulSoup
Was ist die größte Angst vor Datenerfassung und IP-Sperren? Zum jetzigen Zeitpunkt müssen wirDynamischer Proxy-Pool für ipipgoum in Deckung zu gehen. Nennen Sie mir ein Szenario aus dem wirklichen Leben:
Anfragen importieren
von bs4 importieren BeautifulSoup
proxies = {
'http': 'http://user:pass@proxy.ipipgo.cn:9020',
'https': 'http://user:pass@proxy.ipipgo.cn:9020'
}
for page in range(1,10): url = f'{page}'.
url = f'https://某电商网站/search?page={Seite}'
response = requests.get(url, proxies=proxies)
soup = BeautifulSoup(response.text, 'lxml')
Und hier ist die Parsing-Logik...
Mit ipipgo.Exklusiver Hochgeschwindigkeits-ProxyDas erste, was Sie tun müssen, ist, um Ihre Hände auf der Website, die effektiv vermeiden können Auslösung der Anti-Climbing-Mechanismus der Website zu bekommen. Ihre IP-Pool wird jeden Tag aktualisiert 8 Millionen + Ressourcen, pro-Messung crawl Erfolgsquote kann 98% oder mehr sein.
IV. QA-Sitzung (ein Muss für Neulinge)
F: Was soll ich tun, wenn ich nach der Installation des Imports einen Fehler erhalte?
A: Es ist wahrscheinlich, dass der Paketname verwechselt wurde, achten Sie auf die Installation desbeautifulsoup4Aber die Einleitung muss geschrieben werdenvon bs4 importieren BeautifulSoup
F: Was soll ich tun, wenn meine Verbindung ständig unterbrochen wird?
A: Verwenden Sie zuerst ipipgo'sTestwerkzeug für Proxy-KonnektivitätPrüfen Sie, ob der Proxy wirksam ist, und prüfen Sie dann, ob die Ziel-Website über Anti-Crawling-Strategien verfügt
F: Wie lässt sich die langsame Auflösung optimieren?
A: zwei Tricks: ① Wechsel zum lxml-Parser ② Verwendung des ipipgo'sStatische LangzeitwirkstoffeGeringerer Zeitaufwand für Forensik
V. Leitfaden zur Vermeidung der Grube (Blut und Tränen Erfahrung)
1. nicht die alte Python2.7-Umgebung verwenden, BeautifulSoup4 in Python3.6+, um die volle Leistung von
2. falls ein SSL-Zertifikatsfehler auftritt, fügen Sie Folgendes zu requests.get() hinzuverify=FalseParameter (vorläufiges Programm)
3. die Verwendung von ipipgoIP-Whitelist-AuthentifizierungsfunktionVergewissern Sie sich, dass der Proxy richtig konfiguriert ist, und lassen Sie nicht zu, dass Proxy-Probleme die Schuld daran tragen!
Ein letzter Ratschlag: Datenerhebung durchführenLaufen Sie nicht nackt.Mit dem Proxy-Dienst von ipipgo können Sie 80% weniger gehen. Ihre offizielle Website sendet jetzt 1G Verkehr für neue Benutzer, genug zu testen. Es gibt keine technischen Probleme direkt auf ihre 7 × 24 online technische Unterstützung, zuverlässiger als Online-Suche Tutorials.

