Una tarea muy común en los proyectos de periodismo de datos es la elaboración de listados en hojas de cáculo: nombres de personas, países, provincias españolas, deportes de los Juegos Olímpicos, etc.
Antes de que te pongas a copiar y pegar a mano esas listas, tal vez te sea útil conocer una herramienta que extrae información ya existente de una web sencilla y en escasos segundos: import.io.
Cómo funciona import.io
Hemos probado el comportamiento de import.io con varias webs. En primer lugar, e imaginando que hay que volcar información de todas las naciones del mundo, hemos tomado el listado de países de Wikipedia. Hay que insertar el enlace en la barra central de import.io y dar al botón.
En otra pestaña aparece la información separada por columnas, tal y como muestra Wikipedia, y lo mejor es que ofrece la posibilidad de descargarlo en un archivo CSV. También de salvar los datos como una API con el objetivo de que se puedan volver a usar actualizados (en caso de que se produzcan cambios en la web de origen); de integrarlos con Google Sheets; descargarlos en JSON, etc.
Una vez descargado, y dependiendo de la información que tenga la página (esta tiene enlaces e imágenes), es probable que tengamos que limpiar el documento resultante.
En otra prueba para extraer el listado de juegos olímpicos de verano (este 2016 los Juegos tienen lugar en Río de Janeiro), hemos intentado obtener los 43 deportes y disciplinas que se van a jugar de la web Olympic.org. Sin embargo, al estar agrupados por columnas, la herramienta de scraping tan solo extrae la primera columna. Es decir, hay que escoger una web con los datos mostrados de la forma más sencilla posible, ¡y a probar!
para scrapear un sitio web se puede tirar de muchísimas herramientas, hoy en día, ha cobrado muchísima popularidad esta técnica.
Publicado por: Cristóibal | 12/07/2021 en 19:26
Artículo realmente útil. Quiero hacer eso con usps tracking number, ¿es posible?
Publicado por: usps tracking number | 21/09/2023 en 04:09