
¡Te enseñamos cómo convertir datos de IP proxy a archivo CSV a mano!
El hierro viejo que participan en la recopilación de datos saben que el proxy IP se agotan tienen que ser almacenados y analizados. Pero una gran cantidad de herramientas de plomo fuera del formato es desordenado, hoy te enseñan a usar Python todo el trabajo, los datos de IP proxy empaquetados en una forma clara, directa CSV para llevar.
Prepare su kit antes de la recogida
Es importante tener a mano un servicio de IP proxy, he aquí algunas recomendacionesPaquete Residencial Dinámico (Estándar) de ipipgoEl primero no es caro, más de 7 $ por 1 G de tráfico es suficiente. Su llamada API es particularmente simple, obtener los datos de largo como este:
{
"ip": "123.123.123.123",
"port": 8888,
"expire_time": "2024-01-01 12:00",
"location": "Estados Unidos Texas"
}
Preste atención a ver si los campos están completos, algunos proveedores de servicios dan los datos que faltan brazos y piernas, el procesamiento posterior a ser una locura.
Tres pasos para la adquisición en el mundo real
Escribamos un sencillo script en Python, y acordémonos de cargar el archivosolicitaresponder cantandopandasEstas dos bibliotecas:
importar peticiones
importar pandas como pd
Interfaz para obtener datos de ipipgo (cambie usted mismo la API real)
api_url = "https://api.ipipgo.com/get_proxy"
resp = requests.get(api_url)
raw_data = resp.json()
Lo más destacado Aplanar los datos y organizarlos
datos_limpios = []
for item in datos_brutos['proxies']:
clean_data.append({
'dirección IP': item['ip'],
'número de puerto': str(item['puerto']), convertir cadena a prueba de errores
'expiration_time': item['expire_time'],
'location': item['location'].split()[0] mientras país
})
Hora del truco de magia
df = pd.DataFrame(datos_limpios)
df.to_csv('Lista IP proxy.csv', index=False, encoding='utf-8-sig')
Tras ejecutar el script aparecerá el directorio actualLista de IPs proxy.csvábralo en Excel y tendrá el siguiente aspecto:
| Dirección IP | número de puerto | fecha de caducidad | sitio |
|---|---|---|---|
| 123.123.123.123 | 8888 | 2024-01-01 12:00 | Estados Unidos de América |
Guía para evitar las trampas
Pit Point 1:En el caso de un diccionario anidado en los datos, tienes que utilizar la función json_normalize para expandirlo, ¡no lo hagas sin más!
Pit Point 2:Si el csv se abre con código confuso, cambie el parámetro de codificación a utf-8-sig.
Pit Point 3:Las IPs residenciales estáticas de ipipgo tienen un largo periodo de validez, lo que es adecuado para escenarios empresariales que requieren un seguimiento a largo plazo.
Preguntas frecuentes
Q: ¿Cómo es que al CSV exportado le faltan algunas columnas de datos?
R: Compruebe si el campo de retorno de la API y la clave del diccionario en el código se corresponden exactamente, se recomienda utilizar primero la salida de impresión para ver el formato original de los datos.
P: ¿Qué paquetes son rentables para las necesidades de adquisición de las empresas?
R: Datos directos sobreipipgo Paquete Residencial Dinámico (Empresas)Son más de 9 dólares por 1G de tráfico con prioridad de petición.
P: ¿Qué debo hacer si mi código indica un error de certificado SSL?
R: Añada verify=False a requests.get, pero esto no es recomendable para entornos formales.
¿Por qué ipipgo?
Experiencia real de uso en mi propia casa:
1. Me sorprendió que alguien respondiera a una orden de trabajo planteada a las 3 de la madrugada.
2. Hubo una solicitud de una IP de un país pequeño y frío, y el servicio de atención al cliente se ocupó realmente de ello.
3. Es muy fácil de usar, no te desconectarán si usas demasiado tráfico.
4. Se pueden mezclar y combinar paquetes de diferentes servicios, sin necesidad de agrupar el consumo
Como última advertencia, recuerde utilizar la funciónpandas eliminar_duplicados()De-ponderación, no deje que las IP duplicadas desperdiciar recursos. Aunque es fácil de convertir CSV, pero los detalles en su lugar puede ahorrar un montón de problemas de seguimiento, especialmente para los amigos de comercio electrónico transfronterizo, elegir el proveedor de servicios de IP proxy derecho realmente puede duplicar la eficiencia del rastreador.

