Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

DATA WAREHOUSE

Bodegas de Datos
by

Carolina Barrera

on 16 March 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of DATA WAREHOUSE

Data Warehouse DEFINICION Orientado al Tema Contrastes y entornos OLTP Data Warehousing Los almacenes de datos están diseñados para ayudar a analizar los datos.
Por ejemplo, para aprender más acerca de los datos de ventas de una empresa, se puede construir una bodega de datos que se concentre en las ventas. El uso de esta bodega de datos, puede responder a preguntas tales como "¿Quién fue el mejor cliente para este tema el año pasado?"
Esta capacidad de definir una bodega de datos de objeto, las ventas en este caso, hace que el almacén de datos sea orientada al tema. OBJETIVOS Arquitectura Data Warehouse (basica) Diseño lógico Vs Físico Creación del Diseño Lógico Almacenamiento de datos
de esquemas Objetos de Almacenamiento de
Datos Para crear el diseño lógico para el entorno de almacenamiento de datos trataremos los siguientes temas: Diseño lógico Vs Diseño Físico El diseño lógico es más conceptual y abstracto que el diseño físico. En el diseño lógico, nos fijamos en las relaciones lógicas entre los objetos.
En el diseño físico, nos fijamos en la forma más eficaz de almacenar y recuperar los objetos, así como su manejo desde el punto de vista del transporte y copia de seguridad / recuperación.
Orienta el diseño a las necesidades de los usuarios finales.
El diseño lógico, se centra en las necesidades de información y guarda los detalles de implementación para después. Diseño
Lógico Creación de un diseño lógico Un diseño lógico es conceptual y abstracto. No se ocupa de los detalles de implementación física todavía, sólo de definir el tipo de información que se necesita.
Una técnica que puede utilizar para modelar los requisitos lógicos de la organización de la información es el modelado de entidad-relación. Una entidad representa un pedazo de información. Un atributo es un componente de una entidad que ayuda a definir la singularidad de la entidad. Para estar seguro de que sus datos son coherentes, es necesario utilizar los identificadores únicos. En un diseño físico, esto suele ser una clave principal. Esquemas de Almacenamiento de datos Objetos del
Data Warehouse Una diferencia importante entre los tipos de sistema es que las bodegas de datos no están generalmente en tercera forma normal (3NF), un tipo de normalización común de los datos en ambientes OLTP. Carga de Trabajo

Los almacenes de datos están diseñados para dar cabida a las consultas ad hoc.

Se puede no conocer la carga de trabajo del data warehouse por adelantado, por lo que el data warehouse debe ser optimizado para un buen rendimiento y para una amplia gama de posibles operaciones de consulta.

Sistemas OLTP sólo admiten operaciones predefinidas. Sus aplicaciones pueden ser optimizada o diseñada específicamente para soportar sólo estas operaciones. Los almacenes de datos y sistemas OLTP tienen requerimientos muy diferentes. Arquitectura Para el Almacenamiento de Datos Los almacenes de datos y sus arquitecturas varían dependiendo de las características específicas de la situación de una organización. Tres arquitecturas comunes son: Arquitectura Data Warehouse (básico)
Arquitectura Data Warehouse (con un área de ensayo)
Arquitectura Data Warehouse (con un área de ensayo y data marts) Jerarquías A nivel de dimensiones es posible definir jerarquías, las cuales son grupos de atributos que siguen un orden preestablecido. Una jerarquía implica una organización de niveles dentro de una dimensión, con cada nivel representando el total agregado de los datos del nivel inferior. Las jerarquías definen cómo los datos son sumarizados desde los niveles más bajos hacia los más altos. Una dimensión típica soporta una o más jerarquías naturales. Una jerarquía puede pero no exige contener todos los valores existentes en la dimensión. ESQUEMA DE ESTRELLA FIN Tablas de Dimensiones Estas tablas son las que se conectan a la tabla fact, son las que alimentan a la tabla fact.
Una dimensión es una estructura, a menudo compuesta de una o más jerarquías, que clasifica datos.
Varias dimensiones distintas, junto con los hechos, le permiten responder a las preguntas de negocio.
Dimension Data típicamente queda recogida en el nivel más bajo de detalle y luego se suman en los totales de nivel superior que son más útiles para el análisis. Estos resúmenes naturales o agregados dentro de una tabla de dimensiones se denominan jerarquías. (Bodega de Datos) Una bodega de datos es una base de datos relacional que está diseñada para realizar análisis y consultas en lugar de procesamiento de transacciones. Por lo general contiene datos históricos derivados de los datos de transacción, pero pueden incluir datos de otras fuentes. Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Hace que la información de la organización sea accesible.

Los contenidos del Data Warehouse son entendibles y navegables, y el acceso a ellos esta caracterizado por el rápido desempeño. Es información adaptable y elástica

El Data WareHouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas o se agregan nuevos datos al Data WareHouse, los datos existentes y las tecnologías no cambian ni se corrompen. Hacer que la información de la organización sea consistente.

La información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad. Es un seguro baluarte que protege los valores de la información

El Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data WareHouse. La ventaja principal de este tipo de sistemas es, la estructura de la información. Este concepto significa que el almacenamiento de información es homogénea y fiable. Según definió Bill Inmon, el Data Warehouse se caracteriza por ser: La integración esta estrechamente relacionada con la orientación al tema.
Los almacenes de datos deben poner los datos de diferentes fuentes en un formato consistente. Ellos deben resolver problemas como los conflictos de nombres e inconsistencias entre las unidades de medida. Al hacerlo así, se dice que están integrados. Integración No Volátil No volátil significa que, una vez que entró en la bodega de datos, los datos no debe cambiar. Esto es lógico, ya que el propósito de una bodega de datos es que se pueda analizar lo que ha ocurrido. Variante en el tiempo Un almacén de datos se centran en el cambio a través del tiempo es lo que se entiende por el término variable en el tiempo.
Con el fin de descubrir las tendencias en los negocios, los analistas necesitan grandes cantidades de datos.
Esto está muy en contraste con el procesamiento de transacciones en línea (OLTP), donde los requisitos de desempeño exigen que los datos históricos se mueve a un archivo. Modificaciones de datos

Un almacén de datos se actualiza de forma regular por el proceso ETL (funcionamiento nocturno o semanal), utilizando técnicas de modificación masiva de datos. Los usuarios finales de un almacén de datos actualizan el almacén de datos no directamente.

En los sistemas OLTP, los usuarios finales de forma rutinaria emiten instrucciones individuales de modificación de datos a la base de datos. La base de datos OLTP está siempre al día, y refleja el estado actual de cada transacción comercial. Esquema de diseño

Los almacenes de datos suelen utilizar esquemas normalizados o parcialmente sin normalizar (por ejemplo, un esquema en estrella) para optimizar el rendimiento de las consultas.

Sistemas OLTP suelen utilizar esquemas totalmente normalizadas para optimizar actualizar / insertar / borrar, y garantizar la coherencia de los datos. Las operaciones típicas

Una consulta de datos en un típico almacén escanea miles o millones de filas. Por ejemplo, "Encontrar las ventas totales de todos los clientes el mes pasado."

Una típica operación OLTP accede sólo un puñado de registros. Por ejemplo, "Recuperar el orden actual para este cliente." Los datos históricos

Los almacenes de datos suelen almacenar muchos meses o años de datos. Esto es para apoyar el análisis histórico.

Los Sistemas OLTP suelen almacenar datos de sólo unas pocas semanas o meses. El sistema OLTP sólo almacena los datos históricos según sea necesario para cumplir con éxito los requisitos de la transacción actual. ARQUITECTURA DATA WAREHOUSE (CON UN AREA DE ENSAYO) ARQUITECTURA DATA WAREHOUSE (CON UN AREA DE ENSAYO Y DATA MARTS) Los usuarios finales acceden directamente a los datos derivados de los sistemas de origen a través del almacén de datos.
En la Figura, los metadatos y los datos en bruto de un sistema tradicional de OLTP está presente, como es un tipo adicional de datos de resumen. Un resumen en una base de datos Oracle se llama una vista materializada. Es necesario limpiar y procesar sus datos operativos antes de ponerlo en el almacén. Usted puede hacer esto mediante programación, aunque la mayoría de los almacenes de datos utilizan un área de ensayo en su lugar. Un área de ensayo simplifica resúmenes de construcción y gestión de almacén general. Aunque la arquitectura anterior es bastante común, es posible que desee personalizar la arquitectura de su almacén para diferentes grupos dentro de la organización. Usted puede hacer esto mediante la adición de mercados de datos, que son sistemas diseñados para una determinada línea de negocio. DISEÑO LOGICO DEL DATA WAREHOUSE Un esquema es una colección de objetos de base de datos, como tablas, vistas, índices, y sinónimos. La mayoría de los almacenes de datos utilizan un modelo dimensional.
El modelo de datos de origen y los requisitos de los usuarios ayudará a diseñar el esquema de almacenamiento de datos.

La implementación física del almacén de datos lógicos modelo puede requerir algunos cambios para adaptarlo a su sistema de parámetros de tamaño de máquina, el número de usuarios, la capacidad de almacenamiento, tipo de red, y software. El esquema en estrella es el más sencillo del data warehouse.
Se llama un esquema en estrella porque el diagrama se asemeja a una estrella, con puntos que irradian de un centro, el centro de la estrella consiste en una o más tablas de hechos y las puntas de la estrella son las tablas de dimensiones.
Las tablas de hechos y las tablas de dimensiones son los dos tipos de objetos de uso común en los esquemas de dimensiones de almacenamiento de datos.

Las tablas de hechos son las tablas grandes en el esquema del almacén de datos con los métodos de medición del negocio. Las tablas de hechos contienen típicamente hechos y las claves externas a las tablas de dimensiones. Las tablas de hechos representan los datos, por lo general numéricos y aditivos, que pueden ser analizados y examinado. Los ejemplos incluyen las ventas, costos y beneficios.

Las tablas de dimensiones, también conocido como búsqueda o tablas de referencia, contienen los datos relativamente estáticos en el almacén de datos. Las tablas de dimensiones almacenan la información que utiliza normalmente para contener consultas. Las tablas de dimensiones suelen ser textual y descriptivo y se pueden utilizar como los encabezados de fila del conjunto de resultados. Ejemplos son clientes o productos. Tablas de Hechos Una tabla de hechos tiene normalmente dos tipos de columnas: los que contienen datos numéricos (a menudo llamadas medidas), y las que son claves externas a las tablas de dimensiones.
Una tabla de hechos contiene ya sea a nivel de detalle, los hechos que han sido agregados. Las tablas de hechos que contienen datos agregados a menudo se llaman tablas de resumen. Tipos de Esquemas * Esquema en Estrella (Start Schema)
* Esquema Copo de Nieve (Snowflake Schema) En una almacén de datos existen dos tecnologías complementarias: un esquema multidimensional para el análisis y puede instrumentarse usando un esquema relacional para las consultas porque proporcionan mejores resultados y permite accesos de alto rendimiento. Las tablas de dimensión tienen sólo la conexión a la tabla fact y ninguna más.

La tabla de hechos es la única tabla del esquema que tiene múltiples joins que la conectan con otras tablas (foreign keys hacia otras tablas). El resto de tablas del esquema (tablas de dimensión) únicamente hacen join con esta tabla de hechos. Esquema de copo de nieve Es un esquema de representación derivado del esquema en estrella, en el que las tablas de dimensión se normalizan en múltiples tablas. Por esta razón, la tabla de hechos deja de ser la única tabla del esquema que se relaciona con otras tablas, y aparecen nuevas joins gracias a que las dimensiones de análisis se representan ahora en tablas de dimensión normalizadas. Identificadores Únicos Los identificadores únicos se especifican para un registro distinto en una tabla de dimensiones. Artificiales identificadores únicos se utilizan a menudo para evitar el problema potencial de identificadores únicos cambiantes.
Los identificadores únicos se representan con el carácter #. Por ejemplo, # cliente_id. Relaciones Relaciones garantizar la integridad del negocio.
Un ejemplo es que si una empresa vende algo, es evidente que existe un cliente y un producto. Diseño de una relación entre la información de ventas en la tabla de hechos y las tablas de dimensiones de productos y clientes, hace cumplir las reglas de negocio en bases de datos. Carolina Barrera Williams
Diana Fernanda Jara Pérez Contenido Conceptos de Data Warehouse
¿Qué es un Data Warehouse?
■ Contrastes y entornos OLTP y Data Warehouse
Arquitecturas Data Warehouse

Diseño lógico en almacenes de datos
■ Diseño Lógico Vrs Diseño Físico en Almacenes de Datos
■ Creación de un diseño lógico
■ Almacenamiento de datos de esquemas
■ Objetos de datos de Almacenamiento
Diseño de un Almacén de Datos - Ejemplo Glosario OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing) Son los sistemas que se usan para analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de los primeros estos casi siempre usan el modelo multidimensional para organizar los datos en la Base de Datos ya que brindan mejores resultados a la hora del análisis de estos.
La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE  OLTP  es la sigla en  inglés  de  Procesamiento de Transacciones En Línea  (OnLine Transaction Processing) Se les llama así a las aplicaciones orientadas principalmente a la inserción, actualización y eliminación de datos, diseñada casi siempre usando el modelo Relacional. Estos sistemas están optimizados para realizar estas operaciones en un tiempo corto.
Los paquetes de software para OLTP se basan en la arquitectura cliente-servidor ya que suelen ser utilizados por empresas con una red informática distribuida. DATA MART: Es una versión especial de data warehouse.  Son subconjuntos de datos con el propósito de ayudar en una  determinada línea de negocio, como ventas, marketing o finanzas. Se puede decir que los data marts son pequeños data warehouse centrados en un tema o un área de negocio específico dentro de una organización. DESNORMALIZAR: El proceso de permitir redundancia en una tabla. META DATO: Los datos que describen datos y otras estructuras, tales como objetos, reglas de negocio y procesos. Pasos en el diseño del almacén de datos: Paso 1. Elegir un “proceso” de la organización para modelar.

Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso

Paso 3. Identificar las dimensiones que caracterizan el proceso.

Paso 4. Decidir la información a almacenar sobre el proceso. DISEÑO DE UN ALMACÉN DE DATOS
EJEMPLO Paso 4.
Decidir la información a almacenar sobre el proceso. Paso 3.
Identificar las dimensiones
que caracterizan el proceso. Ejemplo:
Cadena de supermercados. Paso 3.
Identificar las dimensiones
que caracterizan el proceso. Paso 2.
Decidir el gránulo (nivel
de detalle) de representación. Paso 1.
Elegir un “proceso” de la organización para modelar. Pasos Proceso: actividad de la organización Ejemplo: Cadena de supermercados.
– Cadena de supermercados con 50 almacenes
en la que se expenden unos 30.000 productos
distintos.

Actividad: Ventas.
– La actividad a modelar son las ventas de
productos en los almacenes de la cadena. El gránulo define el nivel atómico de datos en el almacén de datos.
El gránulo determina el significado de las tuplas de la tabla de hechos.
El gránulo determina las dimensiones básicas del esquema Gránulo: es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar. Ejemplo: Cadena de supermercados. Gránulo: Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada almacén de la cadena”. Define el significado de las tuplas de la tabla de hechos.
Determina las dimensiones básicas del esquema. Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido. Tiempo dimensión temporal: ¿cuándo se produce la actividad?
Producto dimensión ¿cuál es el objeto de la actividad? Almacén dimensión geográfica: ¿dónde se produce la actividad?
Cliente dimensión ¿quién es el destinatario de la actividad? De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad. Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año) Tabla de Dimensión Hechos: información (sobre la actividad) que se desea almacenar en cada fila de la tabla de hechos y que será el objeto del análisis.
Precio
Unidades
Importe Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada establecimiento de la cadena”. Importe total de las ventas del producto en el día
Número total de unidades vendidas del producto en el día
Número total de clientes distintos que han comprado el producto en el día. Modelo Final Diseño de un Almacén de Datos - EJEMPLO Diseño Lógico El Esquema Multidimensional La información relevante sobre el hecho
(actividad) se representa por un conjunto de
indicadores (medidas o atributos de hecho). La información descriptiva de cada dimensión
se representa por un conjunto de atributos
(atributos de dimensión). Se representa una actividad
que es objeto de análisis (hecho) y las caracterizan la actividad (dimensiones). BIBLIOGRAFIA http://www.dataprix.com/que-es-un-datawarehouse

http://docs.oracle.com/cd/B19306_01/server.102/b14223.pdf#page44

http://www.programacion.com/articulo/data_warehousing_201/1

http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse2
Full transcript