Estas en: Home > herramienta

Entradas etiquetadas con herramienta

Gráfico de datos estructurados

Corregir los errores de microformatos en WordPress

0

Como ya os comente en otro post, estoy haciendo una actualización del tema Mystique, el cual lleva sin actualizarse cerca de dos años. Esto me ha llevado a descubrir algunos fallos en el tema que hay que corregir. Uno de ellos es un problema con los microformatos.

Al utilizar la herramienta para Webmaster de Google, en la sección «Aspecto de la búsqueda«, apartado «Datos estructurados» nos aparecerá algo como lo de la siguiente imagen:

Gráfico de datos estructurados

Gráfico de datos estructurados

(más…)

Scrapy: Framework en Phyton para obtener datos de la web (Instalación en Debian)

0

Desde hace unos años se viene produciendo una necesidad por recopilar la mayor cantidad de datos posible, procesarlos y analizarlos. Las herramientas comprendidas dentro del llamado Big Data permiten esto, aunque hay un pequeño sector que está creciendo en importancia: la obtención de datos desde otras web. No estoy hablando de APIs, sino de recopilar información del html que nos exponen otras páginas webs.

A la recopilación de esta información se le llama Web Scraping (http://es.wikipedia.org/wiki/Web_scraping), y está comprendido dentro de las técnicas de Minería de Datos (http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos) del Big Data (http://es.wikipedia.org/wiki/Big_data).

Scrapy nos permite realizar esta tarea de la forma más cómoda posible, aunque necesitarás conocimientos de Phyton para poder usarla.

En Debian su instalación es muy sencilla.

Primero es necesario asegurarnos que disponemos de las librerías adecuadas:

apt-get install phyton phyton-dev phyton-pip libxml2-dev libxslt-dev libffi-dev

En segundo lugar, instalamos Scrapy:

pip install scrapy

Una vez finalizado el proceso de instalación nos vamos al directorio donde tengamos nuestros proyectos de programación, y allí ejecutamos la siguiente línea en la consola:

scrapy startproject nombre_proyecto

Este comando nos creará el directorio del proyecto (nombre_proyecto) y todo el árbol de directorios y archivos necesarios para empezar.

Ir arriba