Blog!

Busqueda de información

PENTAHO BI: Módulo ETL

Ratio: 0 / 5

Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 

PENTAHO es una plataforma Open Source para Business Intelligence diseñada para cubrir las necesidades empresariales de Análisis de Datos e Informes. Está basada en Java esto la hace muy flexible para adaptarla a las necesidades, tanto básicas como especificas de la organización.

Una de las utilidades de esta solución es disponer de información completa en el momento que se necesite, hoy en día es una de las herramientas libres más poderosas en el área. Nos ayuda a transformar los datos y convertirlos en información útil para los departamentos de toma de decisiones.

Con PENTAHO se puede realizar lo siguiente:

  • Procesos ETL (Extracción, Transformación y Carga de datos).
  • Análisis de datos.
  • Reporteo para la empresa.
  • Cuadros de mando (Dashboard) para la toma de decisiones empresariales.
  • Minería de datos (Data mining) para el estudio y tratamiento de datos masivos.

PENTAHO está disponible en las versiones:

  • La podemos descargar desde: http://community.pentaho.com/, en esta versión los componentes vienen por separado, por lo que se tienen que instalar de forma manual según nuestras necesidades.

Para este caso nos enfocaremos en el modulo ETL con el cual podemos generar procesos ETL para la Integración de Datos, y se realiza con la herramienta Kettle ETL (Pentaho Data Integration) que permite implementar los procesos ETL. 

Pentaho Data Integration(PDI) o Kettle


Pentaho Data Integration (PDI) o Kettle, es una poderosa, intuitiva y eficiente herramienta, para la realización de procesos de Extracción, Transformación y Carga, es multiplataforma, así que podemos trabajar en Windows o en Linux sin tener que preocuparnos. Es gráfica, por lo que los procesos quedan plasmados en forma de flujos.

A continuación se presentan algunos conceptos:

  • Kettle: Otro nombre con el que se suele denominar Pentaho Data Integration, o mejor el nombre original de la herramienta antes que fuera adquirida por Pentaho.

  • Spoon: Programa que permite construir procesos con una interfaz muy gráfica e intuitiva.

  • Kitchen: Componente que permite ejecutar jobs por línea de comandos.

  • Pan: Componente que permite ejecutar transformaciones por línea de comandos

Instalación PDI

Para instalar el Data Integration se debe realizar lo siguiente:

  1. Se debe tener instalado la última versión de Java en nuestra máquina.
  2. Descargar la última versión de PDI de la página http://community.pentaho.com/

072 01

  1. Crear un directorio con el nombre PENTAHO en el directorio raíz de nuestra maquina y descomprimir el archivo descargado en el punto anterior(podría tardar varios minutos).

072 02

  1. A continuación entrar a la ruta C:\PENTAHO\data-integration y ejecutar el archivo Spoon.bat para Windows y Spoon.sh para Linux, se debe visualizar la siguiente pantalla:

072 03

 

 

¿Pero, que es SPOON?

 

Es una interfaz gráfica de usuario para el diseño de transformaciones y jobs que pueden ser ejecutadas por las herramientas PAN y KITTCHEN de KETTLE.

Las transformaciones como su nombre lo indica transforman datos mediante una serie de pasos para realizar lectura, manipulación y escritura(ETL) hacia y desde varias fuentes de datos.

Un Job es la agrupación de esta transformaciones como de otros elementos para ser ejecutados en forma batch.

Ejemplo sencillo: Se requiere un proceso que obtenga las incidencias de los nombres repetidos dentro de un archivo(archivo_uno.txt) y se debe generar un archivo con dicha comparación.

Se tiene la siguiente transformación, a la cual se le agregará un paso al final del flujo para generar el archivo de salida con las incidencias.

072 04

Para esto, en la pestaña que dice Design del recuadro situado en la parte izquierda de la pantalla, se debe seleccionar el folder con nombre Salida y elegir el paso “Salida Fichero de Texto” y arrastrarlo a la pestaña de la derecha, debe verse como sigue:

072 05

Posteriormente se debe enlazar al último paso del flujo:

072 06

Se deben ejecutar las acciones necesarias para llevar a cabo la generación del archivo de salida y se deben guardar los cambios:

072 07

Para ejecutar la transformación se debe presionar el botón en forma de triangulo que se encuentra en la esquina superior izquierda de la pantalla:

072 08

Al terminar la ejecución de la transformación se sebe visualizar lo siguiente:

072 09

Y el archivo de salida se visualiza como sigue:

072 10

En Spoon se puede realizar lo siguiente: acceso BD, Web Services, Envio de correo, LDAP, etc.

Para más información en español acerca de Spoon acceder a la siguiente Liga: http://wiki.pentaho.com/display/EAIes/Manual+del+Usuario+de+Spoon

En resumen, PDI facilita la construcción, actualización, y mantenimiento de Data Warehouses, mediante el uso eficiente de recursos.

 

Cualquier duda o comentario puedes contactarnos a info[at]baware.com.mx o dramirez[at]baware.com.mx

Log in