Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

ETL

No description
by

Alfredo Ramirez

on 21 October 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of ETL

E
T
L
Introducción

Las herramientas ETL, un elemento fundamental en la construcción, explotación y evolución de un DW.

las herramientas de este tipo, deberían de proporcionar, de forma general, las siguientes funcionalidades:

Control de la extracción de los datos y su automatización
Acceso a diferentes tecnologías
• Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes, integrando la extracción, transformación y carga
• Uso de la arquitectura de metadatos
• Acceso a una gran variedad de fuentes de datos diferentes.
Manejo de excepciones
Planificación, logs, interfaces a schedulers de terceros
Interfaz independiente de hardware
• Soporte en la explotación del Data Warehouse.
Que es ETL?
Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehousepara analizar, o en otro sistema operacional para apoyar un proceso de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas heredados
En términos simples ¿qué es ETL? (definición personal y genérica): "son todas las actividades necesarias relacionadas a la administración de datos y metadatos para satisfacer las necesidades de información".
Tres fases de los procesos ETL
• Extracción

Transformación
• Carga
Procesamiento
Hay 3 tipos principales de paralelismos que se pueden implementar en las aplicaciones ETL:
• De datos

• De segmentación (pipeline)
• De componente
Desafíos
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado puede provocar importantes problemas operativos.

Es recomendable realizar un
examen
completo de la validez de los datos
(Data profiling)
Normalmente los
data warehouse
son alimentados de manera
asíncrona
desde distintas fuentes, que sirven a propósitos muy diferentes.
El
proceso ETL
es clave para lograr que los datos extraídos asíncronamente de orígenes
heterogéneos
se integren finalmente en un entorno
homogéneo
.
La
escalabilidad
de un sistema de ETL durante su vida útil tiene que ser establecida durante el
análisis.

SLA
:
S
ervice
L
evel
A
greement

Libres
• Kettle (ahora llamado Pentaho Data Integration).
• Scriptella Open Source ETL Tool.
• Talend Open Studio.
• Jitterbit.

Algunas Herramientas ETL
• Ab Initio
• Benetl
• BITool – ETL Software
• CloverETL
• Cognos Decisionstream (IBM)
• Data Integrator (herramienta de Sap Business Objects)
• ETI*Extract (ahora llamada Eti Solution)
• IBM Websphere DataStage (antes Ascential DataStage)
• Microsoft Integration Services
• Oracle Warehouse Builder
• WebFocus-iWay DataMigrator Server
• Pervasive
• Informática PowerCenter
• Oxio Data Intelligence ETL full web
• SmartDB Workbench
• Sunopsis (Oracle)
• SAS Dataflux
• Sybase
• Syncsort: DMExpress.
• Opentext (antes Genio, Hummingbird).
PROPÓSITOS DE LOS ETL
Tareas de Bases de datos:

• Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de aplicativos.
• Sincronización entre diferentes sistemas operacionales
• Consolidación de datos
• Interfases de datos con sistemas externos
• Interfases con sistemas Frontoffice
• Otros cometidos

Las características mas importantes que ha de incluir una herramienta ETL según Gartner son las siguientes:
• Conectividad / capacidades de Adaptación (con soporte a orígenes y destinos de datos)
• Capacidades de entrega de datos
• Capacidades de transformación de datos
• Capacidades de Metadatos y Modelado de Datos
• Capacidades de diseño y entorno de desarrollo
• Capacidades de gestión de datos

• Adaptación a las diferentes plataformas hardware y sistemas operativos existentes
• Las operaciones y capacidades de administración
• La arquitectura y la integración
• Capacidades SOA
Es el negocio el que plantea sus necesidades de información y los requerimientos iniciales del sistema. Esto plantea
dos requisitos
importantes en los datos que deben ser cumplidos por el proceso ETL:
1.-
Las necesidades de información determinan las fuentes de los datos
2.-
Las necesidades de información determinan el diseño de la base de datos analítica
Cuando se
analizan las necesidades de información
que serán cubiertas por la solución BI se debe evaluar:

La factibilidad
Materialidad
Costos

A su vez, inmediatamente podemos identificar
requerimientos para el sub-proyecto de ETL
los cuales en una etapa siguiente deben definirse de mejor forma; como por ejemplo:
|
• Fuentes de los datos
• Validación y aprobación de los datos a cargar
• Disponibilidad de la fuente de datos
• Destino de los datos
• Transformaciones necesarias a los datos
• Frecuencia de acceso a los datos fuentes
• Frecuencia de acceso a los datos finales
• Periodicidad de carga
Punto de vista tecnológico de una solución BI

El proceso de
ETL,
desde el punto de vista tecnológico es un
FCE (Factor Crítico de Éxito)
de una
solución BI,
permite automatizar y simplificar procesos muchas veces complejos o demandantes en tiempo, sobre todo de mantención de las soluciones. La mayoría de los proyectos de
data warehousing
incorporan
procesos de ETL
, es común ver en más del 80% de estos proyectos un ítem para
ETL
; no así los sistemas operacionales los cuales aun prevalece el movimiento de datos por código o a través de las mismas aplicaciones.
Introducción
Las herramientas ETL
¿Qué es ETL?
Procesos ETL
Extracción
Transformación
Carga
Procesamiento en ETL
De datos
De segmentación (pipeline)
De componente
Desafíos de los Procesos ETL
Ejemplos de Herramientas ETL
Propósitos de los ETL
Las características más importantes que ha de incluir una herramienta ETL
Punto de vista tecnológico de una solución BI

Índice
El proceso ETL es una parte fundamental de la organización, ya que por medio de cada uno de los pasos en los que este se desarrolla (extracción, transformación y carga) podemos obtener y mantener la calidad de los datos de forma integrada, eficiente y sobretodo segura.
Esta parte de calidad de datos es muy importante para la empresa ya que la información que contiene la organización debe estar muy bien estructurada y sobre todo debe ser eficiente para la presentación a los usuarios, y de este modo apoyar en la toma de decisiones.
Full transcript