DATA WAREHOUSE

Es una colección de datos integrado, no volátil y de tiempo variante en la cual se integra toda la información de una organización y que es utilizada como soporte al proceso para la toma de decisiones en la alta dirección.

Los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios

El ingreso de datos en la data Warehouse viene desde el ambiente operacional en casi todos los casos. La data Warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.

OBJETIVOS FUNDAMENTALES

• Información de la organización sea accesible: los contenidos son entendibles (los niveles de la información sean correctos y obvios) y navegables (el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic), y el acceso a ellos son caracterizado por el rápido desempeño (cero tiempo de espera).

• Información de la organización sea consistente (toda la información es contabilizada y completada): la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes.

• Información adaptable y elástica: el Data Warehouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen.

• Segura fortificación que protege los valores de la información: el Data Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos.

CARACTERÍSTICAS DE LA DATA WAREHOUSE

Orientado al tema: la información se clasifica en base a los aspectos que son de importancia para la organización, los datos que son tomados están en contraste con los procesos clásicos orientados a las aplicaciones.


Integrado: El aspecto más importante de la data Warehouse es que la información encontrada al interior está siempre integrada. la integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.

De tiempo variable: Toda la información de la data Warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso. Como la información en el data Warehouse es solicitada en cualquier momento, los datos encontrados en el depósito se llaman de "tiempo variante".

No volátil: La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable.

Funciones Etl (Extracción, Transformación Y Carga)


Los procesos de extracción, transformación y carga, son importantes ya que son la forma en que los datos se guardan en un data Warehouse (o en cualquier base de datos). Implican las siguientes operaciones:


Extracción: consiste en extraer los datos desde los sistemas de origen. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano.


Transformación: Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados el data Warehouse o se puedan migrar de éste a otra base de datos. Algunas transformaciones necesarias para ciertos casos.
o Seleccionar sólo ciertas columnas para su carga: columnas con valores nulos no se carguen
o Traducir códigos: "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer
o Codificar valores libres: convertir "Hombre" en "H" o "Sr." en "1"
o Obtener nuevos valores calculados: total_venta = cantidad * precio
o Unir datos de múltiples fuentes: búsquedas, combinaciones
o Calcular totales de múltiples filas de datos Generación de campos clave en el destino: ventas totales de cada región
o Transponer columnas (girando múltiples columnas en filas o viceversa).
o División de columnas en varias: columna "Nombre"; pasar a dos columnas "Nombre" y "Apellido"
La aplicación simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera:
- Datos OK: Entregar datos a la siguiente etapa.
- Datos erróneos: Ejecutar políticas de tratamiento de excepciones
- Carga: es el momento en el cual los datos de la fase anterior son cargados en el sistema de destino. Las data Warehouse mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.



o Acumulación simple: Consiste en realizar un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data Warehouse, almacenando un valor calculado que consistirá en una sumatorio o promedio de la magnitud considerada.

o Rolling: Se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación se aplicarán todas las restricciones y triggers (contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta) que se hayan definido en ésta (por ejemplo, valores únicos, integridad referencial, campos obligatorios, rangos de valores).




Middleware
Es un software de conectividad que ofrece un conjunto de servicios que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Funciona como una capa de abstracción de software distribuida, que se sitúa entre el sistema operativo y red. El Middleware nos abstrae de la complejidad y heterogeneidad de las redes de comunicaciones subyacentes, así como de los sistemas operativos y lenguajes de programación, proporcionando una API para la fácil programación y manejo de aplicaciones distribuidas.
La función del Middleware, es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacén de datos.

Tipos De Middleware


o Remote Procedure Call (RPCs) : El cliente realiza una llamada a procedimientos que están ejecutando en máquinas remotas. Este procesos puede síncronos o asíncronos.


o Publish/subscribe: Este tipo de monitores middleware activan y entregan información relevante para los subscriptores.


o Message-oriented middleware (MOM): Los mensajes enviados al cliente se recogen y se almacenan hasta que son solicitados, mientras el cliente continúa realizando otros procesos.


o Object Request Broker (ORB): Este permite que los clientes envíen objetos y soliciten servicios en un sistema orientado a objetos.


o SQL-oriented Data Access: middleware entre las aplicaciones y los servidores de base de datos.

VENTAJAS Y DESVENTAJAS DE DATA WAREHOUSE


Ventajas
- La Data Warehouse hace más libre el acceso a una gran variedad de datos.
- Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión.
- La Data Warehouse pueden trabajar en conjunto y aumentar el valor operacional de las aplicaciones empresariales.


Inconvenientes
- Los costos de mantenimiento son elevados.
- Se pueden quedar obsoletos relativamente pronto.


DATA MART


Es una base de datos departamental, especializada en almacenar datos de un área de negocios específica. Caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Este puede ser alimentado desde los datos de un data Warehouse, o integrar por si mismo un compendio de distintas fuentes de información. Es orientado a la consulta y se consulta mediante los cubos Olap.

Ventajas


o Fácil acceso a los datos que se necesitan frecuentemente.
o Crea vista colectiva para grupo de usuarios.
o Mejora el tiempo de respuesta del usuario final.
o Facilidad de creación.
o Costo inferior al de la aplicación de un completo almacén de datos.

0 comentarios:

Publicar un comentario