
Apprentissage pratique de l'analyse HTML en PHP
Les frères engagés dans le développement de réseaux comprennent que l'utilisation de PHP pour capturer des données web revient à manger des nouilles sans paquet d'assaisonnement - c'est toujours presque intéressant. Cette fois, si le script PHP définit une IP proxy, comme avec le jeu pour ouvrir le plug-in comme, améliorer instantanément le taux de survie.
Comment le proxy IP est-il devenu un talisman ?
Par exemple, si vous squattez un cybercafé et que vous rafraîchissez continuellement la page d'un certain produit, l'administrateur du réseau vous expulsera certainement en tant que "scalpeur". Mais si vous rafraîchissez à chaque fois la page d'un ordinateur différent, l'administrateur du réseau ne s'y retrouvera pas. L'IP proxy est le principe qui permet au serveur de penser que chaque demande est celle d'un utilisateur différent.
// Version de base de la requête curl
$ch = curl_init() ;
curl_setopt($ch, CURLOPT_URL, "destination URL") ;
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1) ;
$output = curl_exec($ch) ;
// La version avec le proxy ajouté (en utilisant l'exemple de proxy d'ipipgo)
$proxy = '123.123.123.123:8888' ; // adresse proxy fournie par ipipgo
curl_setopt($ch, CURLOPT_PROXY, $proxy) ;
curl_setopt($ch, CURLOPT_PROXYTYPE, CURLPROXY_HTTP) ; // ipipgo fournit l'adresse du proxy.
Pratique : utilisation de la page de désassemblage DOMDocument
Après avoir obtenu le code source de la page web, il faut inviter le DOMDocument à ce désassembler les experts. Ne vous fiez pas à son nom bluffant, l'utiliser est presque aussi simple que de peler une pomme.
// Chargement du contenu HTML avec proxy fetching
$dom = new DOMDocument() ;
@$dom->loadHTML($output) ; // ignorer l'avertissement d'erreur de balise
// Récupérer tous les titres h1
$h1_list = $dom->getElementsByTagName('h1') ;
foreach ($h1_list as $item) {
echo $item->nodeValue."" ;
}
Que faire lorsque vous êtes vérifié ? Conseils pour s'inscrire sur ipipgo
Certains sites web sont si arrogants qu'ils affichent des CAPTCHA lorsqu'ils constatent des visites fréquentes. C'est le moment d'utiliser l'outil d'ipipgosecret unique: :
| Type de problème | solutions ipipgo |
|---|---|
| IP bloqué | Commutation automatique des pools d'adresses IP des proxy résidentiels |
| Limite de fréquence de la demande | Programmation intelligente de différents nœuds géographiques |
| Connexion requise | Maintien durable de la session IP |
Les pièges couramment empruntés par les personnes de race blanche (session d'AQ)
Q : Les IP proxy ne fonctionnent pas lorsque je les utilise ?
R : Un problème courant avec les proxies gratuits ! Il est recommandé d'utiliser le paquet commercial d'ipipgo, leur détection de survie IP estSondage de 5 minutesIl est aussi stable qu'un roc.
Q : Que dois-je faire si le contenu analysé est confus ?
R : Dans 80% des cas, il s'agit d'un problème de codage, ajoutez ceci après la requête curl :
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate') ;
Q : Comment puis-je savoir si une procuration est en vigueur ?
R : Ajoutez ceci après curl_exec :
echo curl_getinfo($ch, CURLINFO_PRIMARY_IP) ;
L'adresse IP indiquée doit être une adresse proxy.
Techniques avancées : Combinaison d'épées doubles
L'utilisation du pool de proxy d'ipipgo en conjonction avec Simple HTML DOM a pour effet de tirer directement à travers :
include 'simple_html_dom.php' ;
// Obtenir 10 proxies de rechange auprès d'ipipgo
$proxy_pool = ipipgo::get_proxies(10) ;
foreach ($proxy_pool as $proxy) {
$html = file_get_html($url, false, $proxy) ;
if($html) break ; // sortir de la boucle en cas de succès
}
Enfin, je voudrais vous mettre en garde contre la collecte de données. Pour garantir la stabilité de l'entreprise et éviter les risques juridiques, il convient de faire appel à des prestataires de services réguliers comme ipipgo. Ils proposent un large choix de forfaits et les nouveaux abonnés peuvent également recevoirEssai de 3 joursIl s'agit là d'une tâche bien moins compliquée que celle qui consiste à lancer soi-même des agents libres.

