Quand les chenilles rencontrent les bibliothèques universitaires : les nids-de-poule sur lesquels nous avons marché ces dernières années
Toute personne impliquée dans la recherche universitaire sait que chercher de la littérature revient à chercher des livres dans dix bibliothèques en même temps - Knowledge Networks, Springer, IEEE et ces plates-formes ont chacune leur propre tempérament. Le plus désastreux, c'est que lorsque vous venez de trouver l'article clé, le site web se met soudain à vous chercher...CAPTCHA pop-upOu simplementBlocage IPCette fois, si vous utilisez votre propre haut débit, quelques minutes suffisent pour être mis sur la liste noire. En ce moment, si vous utilisez votre propre haut débit, quelques minutes suffisent pour figurer sur la liste noire, en particulier lorsque vous avez besoin de télécharger des PDF par lots, c'est tout simplement de l'auto-infligé.
Réussir le tiercé gagnant : accès stable + recherche inter-bibliothèques + analyse de texte
Commençons par un cas concret : lorsqu'une équipe de recherche universitaire a procédé à une analyse documentaire, l'IP du laboratoire a été bloquée en raison de l'accès fréquent à une base de données en langue étrangère. Plus tard, ils ont utiliséProxy exclusif pour ipipgoLa collecte des données a été effectuée avec succès en répartissant les demandes sur différentes adresses IP de sortie.
En voici une.Table de configuration du triangle d'or: :
assemblages | correspond à l'anglais -ity, -ism, -ization | Programme recommandé |
---|---|---|
pool d'agents | Anti-blocage/ dépassement de la limite de fréquence | ipipgo IP résidentielle dynamique |
retriever | Recherche unifiée sur plusieurs plateformes | Créez votre propre tableau de correspondance des mots-clés |
résolveur | PDF vers données structurées | PyMuPDF+Nettoyage régulier |
La bonne façon d'ouvrir un proxy IP
Ne pensez pas qu'un agent libre puisse y faire face, l'anti-escalade de la bibliothèque universitaire peut être beaucoup plus difficile que celle du site de commerce électronique. Il est recommandé d'utiliserAccès réservé aux universitaires pour ipipgoLes segments IP de leur classe d'éducation ont une plus grande probabilité d'être étiquetés comme sources fiables par les principales bases de données. Notez ces trois points lors de la configuration :
1. avant chaque demandeChangement aléatoire d'adresse IP(N'utilisez pas la rotation séquentielle, elle est facile à détecter).
2. le contrôle de la concurrence dans3-5 filsparmi
3. immédiatement après avoir rencontré un CAPTCHAFaites une pause de 10 minutes.Changez d'IP et réessayez.
Les détails diaboliques de l'analyse des fichiers PDF
Le PDF difficile à télécharger peut cacher des mines :
- Faible taux de reconnaissance de texte pour les images numérisées
- Les symboles des formules deviennent du charabia
- Les références sont formatées de multiples façons
Il est recommandé de commencer parPyPDF2 effectue l'analyse de basepuis des expressions régulières pour traiter des motifs spécifiques. Par exemple, la correspondance avec des citations au format APA pourrait être écrite de la manière suivante :
d{4}).s([A-Za-z]+),s([A-Z].s?){1,3}(
En cas de mise en page complexe, essayez de convertir le PDF en HTML puis de l'analyser, ce qui permet de conserver davantage d'informations sur la mise en page.
Question triple d'AQ pratique
Q : Pourquoi suis-je toujours bloqué avec une adresse IP dynamique ?
R : Vous avez peut-être utilisé une IP de centre de données, et les bibliothèques universitaires sont particulièrement sensibles à ce type d'IP. Passez au proxy résidentiel d'ipipgo, surtout si vous choisissez deLabel de l'industrie de l'éducationdu segment IP.
Q : Comment les recherches inter-bibliothèques gèrent-elles les différences de champs entre les plates-formes ?
R : Créez un tableau de correspondance des mots-clés, par exemple :
Knowledge.com "Titre" → IEEE "Titre du document"
Les "Topics" de Wanfang → les "Keywords" de ScienceDirect
Q : Que dois-je faire si les données analysées sont incompréhensibles ?
R : Vérifiez d'abord le format d'encodage du PDF, essayez d'utiliser la fonctionautodétection de la bibliothèque chardetSi vous recherchez de la littérature sur un site en langue étrangère, n'oubliez pas d'ajouter le paramètre Accept-Language dans l'en-tête de la requête. Si vous recherchez de la littérature sur un site en langue étrangère, n'oubliez pas d'ajouter le paramètre Accept-Language dans l'en-tête de la requête.
Guide pour éviter la fosse
Enfin, une leçon de sang et de larmes : une fois, lorsque j'ai utilisé un crawler pour télécharger un article, je n'ai pas contrôlé la vitesse et, par conséquent, j'ai déclenché la fonctionProtection contre les attaques DDoSNon seulement l'IP a été bloquée, mais le numéro d'AS entier a été occulté. Plus tard, il a été remplacé par ipipgo.Agent de contrôle QPS intelligentLa possibilité d'ajuster automatiquement la fréquence des demandes en fonction de la réactivité du site cible est une solution à long terme.
Faire du crawling académique, c'est comme danser dans un champ de mines, en essayant d'obtenir les données et d'en garder l'accès en même temps. N'oubliez pas les deux noyaux :Pool IP Proxy fiable+Stratégie de demande humaniséeLorsque ces deux points sont bien exécutés, l'efficacité de la collecte de littérature est au moins triplée. Ne vous laissez pas piéger par le problème de la propriété intellectuelle, après tout, le temps consacré à la recherche documentaire devrait être consacré à l'absorption de connaissances, et non à la lutte contre le mécanisme anti-crawling.