Herramientas

5 herramientas para la recolección de datos de páginas web

Por Cindy Villegas

Publicado el 17 de enero del 2011

El periodista Dan Nguyen de ProPublica comparte 5 herramientas muy útiles para la recolección de datos (o ‘raspado’) de páginas web. Si bien estas herramientas requieren la capacidad de programar, también pueden ser usadas por periodistas que están aprendiendo a programar y saben lo básico.

Google Refine: (Anteriormente conocida como base libre GridWorks) Una aplicación sofisticada que hace la limpieza de datos en un instante.
Firebug: Un plug-in para Firefox que añade una serie de herramientas de desarrollo útiles, incluyendo el seguimiento de parámetros y archivos recibidos de los sitios web que quiere ‘raspar’.
Ruby: El lenguaje de programación más utilizado en ProPublica.
Nokogiri: Una colección de Ruby esencial para raspar las páginas web.
Tesseract: Reconocimiento de caracteres ópticos de Google ( OCR ) herramienta útil para convertir el texto escaneado en “real”, texto interpretable.
Adobe Acrobat: Puede (a veces) convertir archivos PDF a HTML bien estructurados.

Además, Nguyen agrega guías para usar mejor estas herramientas.

Usar Google Refine para limpiar datos desordenados.
Lectura de datos desde sitios Flash usando Firebug.
Análisis de PDF.
Raspado de HTML.
Obtener el texto de una imagen escaneada (solo en PDF).

Publicado por:

Periodista.

Sígueme

COMPATIR EN REDES

NOTICIAS RELACIONADAS

El director de un periódico que hoy sirve café en un bar

Dirigía un periódico de 220 redactores y hoy se dedica a servir café. La historia del periodista rumano Laurentiu Ciocazanu es bastante impresionante y comprueba que denunciar las historias comprometedoras de los poderosos puede traerse abajo -de un día para otro- una exitosa carrera periodística de 20 años.

11-07-12

Irán: Familia de periodista del Washington Post pide su liberación

La familia del periodista del Washington Post recluido sin cargos en Irán, y que lleva tres meses detenido, pidió a las autoridades de Teherán su liberación.

30-10-14

Revista de deportes deja el papel después de 126 años y apuesta por el online

La revista The Sporting News cerrará el 1 de enero de 2013 la redacción del papel después de 126 años, informa el sitio Sherman Report. La razón: la falta de de suscriptores y la falta de ingresos por publicidad. El medio ya está imprimiendo la última edición de la publicación.

11-12-12

COMENTARIOS