
Enseñanza práctica para cambiar los datos IP del proxy de JSON a CSV
Los que trabajéis a menudo con IPs proxy os habréis encontrado con esta situación: la lista de IPs que recibís del proveedor de servicios está en formato JSON, pero el crawler que utilizáis sólo reconoce tablas CSV. Este desajuste de formatos es como intentar comerse un filete con palillos: no es imposible, pero siempre resulta incómodo.
Tomemos como ejemplo nuestros usuarios ipipgo, los datos proxy exportados desde el backend es una estructura JSON regular por defecto. Por ejemplo, tiene este aspecto:
{
"proxies": [
{
"ip": "203.34.56.78",
"protocolo": "socks5", "ubicación": "Xuzhou, provincia de Jiangsu".
"location": "Xuzhou, Jiangsu"
}, { "ip": "203.34.56.78
{
"ip": "118.23.45.67", "puerto": 3128, {
"protocolo": "http", "ubicación": "Shenzhen, Guangdong" }, { "ip": "118.23.45.67", "puerto": 3128, "protocolo": "http", "ubicación": "Xuzhou, Jiangsu" }
"location": "Shenzhen, Guangdong"
}
]
}
Pero si quieres meter estos datos en Excel para el cribado, o importados en algún software sólo comen formato CSV, usted tiene que venir a un cambio de formato. Aquí para enseñarle dos métodos prácticos de conversión, para asegurar que más seguro que el uso de sitios de conversión en línea - después de todo, el proxy IP tales datos sensibles, no acaba de pasar a un sitio de terceros.
Python viene con un gran conversor de formatos.
Prepara un editor de texto y crea un nuevo archivo .py. El siguiente código es un script de conversión escrito por nuestro técnico específicamente para usuarios de ipipgo:
importar csv
importar json
Recuerda cambiar la ruta a tu propio archivo
with open('ipipgo_data.json') as f:
data = json.load(f)['proxies']
csv_columns = ['ip', 'port', 'protocol', 'location']
with open('output.csv', 'w', newline='') as csvfile:
writer = csv.DictWriter(csvfile, fieldnames=csv_columns)
writer.writeheader()
para fila en datos.
writer.writerow(fila)
Después de ejecutar este procedimiento, habrá varios archivos output.csv en el mismo directorio de nivel. Ábralos con Excel para ver la tabla normal, pero también por región, tipo de protocolo para hacer filtrado. Por ejemplo, si quiere encontrar un agente de socks5 en Jiangsu, puede filtrar la tabla directamente y conseguirlo.
¿Por qué se recomienda almacenar las IP proxy con CSV?
He aquí algunas ventajas tangibles:
| toma | Puntos débiles de JSON | Ventajas de CSV |
|---|---|---|
| Filtrado de datos | Para escribir sentencias de consulta complejas | Botón de filtro de puntos directos de Excel |
| importación por lotes | Tienes que escribir tu propio código de análisis. | La mayoría de los programas informáticos admiten directamente |
| mantenimiento manual | Paréntesis rizados fáciles de escribir | Tan intuitivo como rellenar un formulario |
Especialmente con la piscina de proxy ipipgo, a menudo necesitan para proyectar diferentes regiones de la IP de acuerdo a las necesidades del negocio. en CSV, incluso si los colegas de operación para hacer frente no será ciego, después de todo, la operación de la tabla es una voluntad persona.
Preguntas frecuentes QA
P: ¿Qué ocurre con los datos anidados en JSON?
Por ejemplo, algunos agentes tienen información de validación en sus datos:
"auth": {
"nombre_usuario": "ipipgo_user",
"password": "123456"
}
Añada un campo como 'auth.username' a csv_columns al procesar, y el código puede expandirlo en una columna separada con el procesamiento correspondiente.
P: ¿Qué debo hacer si encuentro códigos desordenados al convertir?
Añade un parámetro de codificación a la función open, por ejemplo encoding='utf-8-sig', especialmente útil cuando se trata de regiones proxy chinas.
P: ¿Puedo cambiar de forma automática y periódica?
Utilice el planificador de tareas de Windows o el crontab de Linux con la API de ipipgo para obtener automáticamente la última lista de proxies, y actualice el archivo CSV automáticamente al amanecer de cada día.
Ventajas ocultas para los usuarios de ipipgo
De hecho, hemos preparado unCanal de exportación rápidaSi desea convertir sus datos a formato CSV, puede hacer clic en [Exportar datos] → [Formato CSV] después de iniciar sesión y obtener un archivo de formulario listo en tres segundos. Esta característica es específicamente para los usuarios que a menudo tienen que hacer el análisis de datos está listo, que con la secuencia de comandos para convertir mucho más problemas.
Si usted necesita para interactuar con otros sistemas de la escena, se recomienda utilizar ipipgo API directamente, en el parámetro de solicitud añadir un format=csv, el retorno está listo flujo de datos CSV, eliminando la necesidad de pasos de conversión. Documentos específicos en el fondo del usuario en la [Guía de Desarrollo], de acuerdo con el código de ejemplo se puede utilizar para cambiar.
Por último, me gustaría decir una cosa: los datos de IP de proxy implica la seguridad de la cuenta, así que presta atención a la ubicación de almacenamiento de archivos al convertir el formato. Especialmente con la información de autenticación del proxy, recuerde eliminar los archivos temporales en el tiempo después de la conversión, no deje una puerta trasera para los interesados.

