Desde hace unos años se viene produciendo una necesidad por recopilar la mayor cantidad de datos posible, procesarlos y analizarlos. Las herramientas comprendidas dentro del llamado Big Data permiten esto, aunque hay un pequeño sector que está creciendo en importancia: la obtención de datos desde otras web. No estoy hablando de APIs, sino de recopilar información del html que nos exponen otras páginas webs.

A la recopilación de esta información se le llama Web Scraping (http://es.wikipedia.org/wiki/Web_scraping), y está comprendido dentro de las técnicas de Minería de Datos (http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos) del Big Data (http://es.wikipedia.org/wiki/Big_data).

Scrapy nos permite realizar esta tarea de la forma más cómoda posible, aunque necesitarás conocimientos de Phyton para poder usarla.

En Debian su instalación es muy sencilla.

Primero es necesario asegurarnos que disponemos de las librerías adecuadas:

apt-get install phyton phyton-dev phyton-pip libxml2-dev libxslt-dev libffi-dev

En segundo lugar, instalamos Scrapy:

pip install scrapy

Una vez finalizado el proceso de instalación nos vamos al directorio donde tengamos nuestros proyectos de programación, y allí ejecutamos la siguiente línea en la consola:

scrapy startproject nombre_proyecto

Este comando nos creará el directorio del proyecto (nombre_proyecto) y todo el árbol de directorios y archivos necesarios para empezar.