CUBOS OLAP
en 23:22OLAP significa, procesamiento analítico en línea (On-Line Analytical Processing), que es una manera de organizar los datos contenidos en una base de datos para que se ajusten al modo que tienen los usuarios de analizarlos: en categorías jerárquicas y en valores de resumen previamente calculados.
Un cubo OLAP proporciona sólo los resultados resumidos de los informes, en vez de una gran cantidad de registros individuales, para que sea posible analizar muchos datos que, de otra forma, no podrían manejar los recursos del sistema.
Cuando se crea un cubo OLAP a partir de los datos de una base de datos relacional, se llevan a cabo los pasos iniciales de la creación de informes que necesiten los usuarios.
CONCEPTOS BÁSICOS RELACIONADOS CON LOS CUBOS OLAP
Campos de datos y dimensiones.
Una consulta OLAP permite elegir una serie de datos plana, aplicar una organización jerárquica a los campos y definir los valores de resumen que desee calcular.
El cubo resultante contiene dos tipos de datos: valores resumidos y sus hechos descriptivos. Los valores que se van a resumir, como el número de elementos vendidos, se denominan campos de datos. Los hechos descriptivos, como la fecha y la ubicación de cada venta, se organizan por niveles de detalle denominados dimensiones.
Para organizar los campos se puede utilizar el mismo tipo de categorías que los usuarios emplean para analizar los datos de los informes. Los campos de datos y las dimensiones facilitan el proceso de mostrar resúmenes de alto nivel en los informes, como el total de ventas de un país o de una región, y también muestran los detalles de bajo nivel, como los lugares en los que las ventas son especialmente altas o bajas.
En el diseño de un cubo debemos especificar el origen de datos más eficazmente.
Todos los campos de un cubo deben ser campos de datos o dimensiones y cada uno de los campos de datos debe designarse como uno de los dos tipos. Para que una consulta o una selección se ejecute más eficazmente y que los informes que se realicen a partir de ella se actualicen más rápidamente, debe incluir en el cubo sólo los campos que vaya a utilizar. Antes de continuar con este asistente, es posible que desee comprobar si la consulta o la selección de los datos de origen incluye todos los datos deseados y únicamente esos datos.
VISUALIZACION DE LOS DATOS EN CUBO OLAP
Los datos se almacenan en una estructura de cubo (es como si estuviera totalmente indexado) y la velocidad de acceso se hace mucho mas eficiente.
En este caso, la primera consulta nos muestra los puntos que han acumulado los titulares de la tarjeta clásica, en todos los tipos de cabinas y en todos los meses. Mientras, que en la segunda filtramos el cubo para los que volaron en turista. Este tipo de consultas devuelve los datos de forma instantánea.
EJEMPLO CUBO OLAP EN LA EMPRESA
Un analista financiero podría querer ver los datos de diversas formas, por ejemplo, visualizándolos en función de todas las ciudades (que podrían figurar en el eje de abscisas) y todos los productos (en el eje de ordenadas), y esto podría ser para un período determinado, para la versión y el tipo de gastos.
Después de haber visto los datos de esta forma particular el analista podría entonces querer ver los datos de otra manera y poder hacerlo de forma inmediata. El cubo podría adoptar una nueva orientación para que los datos aparezcan ahora en función de los períodos y el tipo de coste.
Debido a que esta reorientación implica resumir una cantidad muy grande de datos, esta nueva vista de los datos se debe generar de manera eficiente para no malgastar el tiempo del analista, es decir, en cuestión de segundos, en lugar de las horas que serían necesarias en una base de datos relacional convencional.
MODELO DE DATOS
MOLAP: usa unas bases de datos multidimensionales para proporcionar el análisis, su principal premisa es que los datos se encuentran almacenados en una estructura de datos multidimensionales para ser visualizada en varias dimensiones de análisis. El sistema MOLAP utiliza una arquitectura de dos niveles: la bases de datos multidimensionales y el motor analítico. La base de datos multidimensional es la encargada del manejo, acceso y obtención del dato.
ROLAP: La arquitectura ROLAP, accede a los datos almacenados en una data Warehouse para proporcionar los análisis OLAP. La premisa es que los datos se encuentran almacenados en bases de datos relacionales. El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad analítica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtención del dato. El nivel de aplicación es el motor que ejecuta las consultas multidimensionales de los usuarios. El motor ROLAP se integra con niveles de presentación, a través de los cuáles los usuarios realizan los análisis OLAP. Después de que el modelo de datos para el data Warehouse se ha definido, los datos se cargan desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si así es requerido por los modelos de datos. Se crean entonces los índices para optimizar los tiempos de acceso a las consultas. Los usuarios finales ejecutan sus análisis multidimensionales, a través del motor
ROLAP, que transforma dinámicamente sus consultas a consultas SQL. Se ejecutan estas consultas en las bases de datos relacionales, y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios.
HOLAP: Un desarrollo un poco más reciente ha sido la solución OLAP híbrida (HOLAP), la cual combina las dos arquitecturas anteriores para brindar una solución con las mejores características de ambas: desempeño superior y gran escalabilidad. Un tipo de HOLAP, lo que hace es mantener los registros de detalle (los volúmenes más grandes) en la base de datos relacional, mientras que los datos agregados se almacenan en una base de datos multidimensional separada.
Los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios
El ingreso de datos en la data Warehouse viene desde el ambiente operacional en casi todos los casos. La data Warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.
OBJETIVOS FUNDAMENTALES
• Información de la organización sea accesible: los contenidos son entendibles (los niveles de la información sean correctos y obvios) y navegables (el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic), y el acceso a ellos son caracterizado por el rápido desempeño (cero tiempo de espera).
• Información de la organización sea consistente (toda la información es contabilizada y completada): la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes.
• Información adaptable y elástica: el Data Warehouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen.
• Segura fortificación que protege los valores de la información: el Data Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos.
CARACTERÍSTICAS DE LA DATA WAREHOUSE
Orientado al tema: la información se clasifica en base a los aspectos que son de importancia para la organización, los datos que son tomados están en contraste con los procesos clásicos orientados a las aplicaciones.
Integrado: El aspecto más importante de la data Warehouse es que la información encontrada al interior está siempre integrada. la integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.
De tiempo variable: Toda la información de la data Warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso. Como la información en el data Warehouse es solicitada en cualquier momento, los datos encontrados en el depósito se llaman de "tiempo variante".
No volátil: La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable.
Funciones Etl (Extracción, Transformación Y Carga)
Los procesos de extracción, transformación y carga, son importantes ya que son la forma en que los datos se guardan en un data Warehouse (o en cualquier base de datos). Implican las siguientes operaciones:
Extracción: consiste en extraer los datos desde los sistemas de origen. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano.
Transformación: Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados el data Warehouse o se puedan migrar de éste a otra base de datos. Algunas transformaciones necesarias para ciertos casos.
o Seleccionar sólo ciertas columnas para su carga: columnas con valores nulos no se carguen
o Traducir códigos: "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer
o Codificar valores libres: convertir "Hombre" en "H" o "Sr." en "1"
o Obtener nuevos valores calculados: total_venta = cantidad * precio
o Unir datos de múltiples fuentes: búsquedas, combinaciones
o Calcular totales de múltiples filas de datos Generación de campos clave en el destino: ventas totales de cada región
o Transponer columnas (girando múltiples columnas en filas o viceversa).
o División de columnas en varias: columna "Nombre"; pasar a dos columnas "Nombre" y "Apellido"
La aplicación simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera:
- Datos OK: Entregar datos a la siguiente etapa.
- Datos erróneos: Ejecutar políticas de tratamiento de excepciones
- Carga: es el momento en el cual los datos de la fase anterior son cargados en el sistema de destino. Las data Warehouse mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
o Acumulación simple: Consiste en realizar un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data Warehouse, almacenando un valor calculado que consistirá en una sumatorio o promedio de la magnitud considerada.
o Rolling: Se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).
La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación se aplicarán todas las restricciones y triggers (contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta) que se hayan definido en ésta (por ejemplo, valores únicos, integridad referencial, campos obligatorios, rangos de valores).
Middleware
Es un software de conectividad que ofrece un conjunto de servicios que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Funciona como una capa de abstracción de software distribuida, que se sitúa entre el sistema operativo y red. El Middleware nos abstrae de la complejidad y heterogeneidad de las redes de comunicaciones subyacentes, así como de los sistemas operativos y lenguajes de programación, proporcionando una API para la fácil programación y manejo de aplicaciones distribuidas.
La función del Middleware, es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacén de datos.
Tipos De Middleware
o Remote Procedure Call (RPCs) : El cliente realiza una llamada a procedimientos que están ejecutando en máquinas remotas. Este procesos puede síncronos o asíncronos.
o Publish/subscribe: Este tipo de monitores middleware activan y entregan información relevante para los subscriptores.
o Message-oriented middleware (MOM): Los mensajes enviados al cliente se recogen y se almacenan hasta que son solicitados, mientras el cliente continúa realizando otros procesos.
o Object Request Broker (ORB): Este permite que los clientes envíen objetos y soliciten servicios en un sistema orientado a objetos.
o SQL-oriented Data Access: middleware entre las aplicaciones y los servidores de base de datos.
VENTAJAS Y DESVENTAJAS DE DATA WAREHOUSE
Ventajas
- La Data Warehouse hace más libre el acceso a una gran variedad de datos.
- Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión.
- La Data Warehouse pueden trabajar en conjunto y aumentar el valor operacional de las aplicaciones empresariales.
Inconvenientes
- Los costos de mantenimiento son elevados.
- Se pueden quedar obsoletos relativamente pronto.
DATA MART
Es una base de datos departamental, especializada en almacenar datos de un área de negocios específica. Caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Este puede ser alimentado desde los datos de un data Warehouse, o integrar por si mismo un compendio de distintas fuentes de información. Es orientado a la consulta y se consulta mediante los cubos Olap.
Ventajas
o Fácil acceso a los datos que se necesitan frecuentemente.
o Crea vista colectiva para grupo de usuarios.
o Mejora el tiempo de respuesta del usuario final.
o Facilidad de creación.
o Costo inferior al de la aplicación de un completo almacén de datos.
Cisco ha publicado los resultados de un estudio mundial, orientado a evaluar cómo utilizan las empresas las redes sociales para colaborar de forma externa. Entre las conclusiones del estudio, destaca el aumento de las redes sociales en el entorno empresarial y la necesidad de un sistema de control y una implicación más directa por parte de los departamentos de TI en las empresas. “El aumento de usuarios conectados está impulsando un cambio de actitud ante el mercado en la empresa, generando “negocios impulsados por las personas”, donde las herramientas de redes sociales y tecnologías de cooperación son el combustible en la productividad de próxima generación”, afirma Nick Earle, vicepresidente senior en Cisco Services. “En la adopción de la tremenda capacidad de las redes sociales triunfarán las empresas que sean capaces de diseñar una arquitectura informática colaborativa que respalde el uso de esas tecnologías, protegiéndose ante los riesgos que plantean”.
Redes sociales, herramienta de colaboración
Las conclusiones del estudio indican que el mundo empresarial está en las primeras fases de adopción de las redes sociales como herramientas de colaboración. El uso de redes sociales, como Facebook y Twitter, como plataformas de colaboración, está conectando a las organizaciones con el mundo exterior en multitud de formatos.
Algunos de los datos relevantes de este primer barómetro son:
El 75% de las organizaciones entrevistadas identifica las redes sociales como las herramientas de difusión social que más utilizan, mientras que apenas el 50% identifica también el uso extendido del microblog.
Las herramientas de redes sociales están llegando a las áreas fundamentales de la cadena de valor, como los departamentos de marketing, comunicaciones, relaciones humanas y servicio al cliente. Las pequeñas y medianas empresas usan activamente los canales de redes sociales para generar clientes potenciales, pero aún sigue siendo una posibilidad de crecimiento reservada para las empresas más grandes.
- Permite el trabajo en equipo, lo que conlleva a realización de proyectos más novedosos y atractivos para los usuarios finales del proyecto.
- Orienta a mejorar la productividad.
- Permite replicar y sincronizar la información dentro de una empresa, para la mejora en toma de decisiones.
Tipos de Sistemas Colaborativos.
- Sistemas Colaborativos Sincrónicos: Todo aquel sistema que permite a los participantes del mismo construir la actividad que realizan en consenso, siendo esta cara a cara o a distancia, pero debiendo estar conectados al mismo tiempo. Por ejemplo: MSN, Videoconferencias, etc.
- Sistemas Colaborativos Asincrónicos: Todos aquellos que permiten compartir datos sin necesidad de que los participantes se encuentren conectados en ese instante. Por ejemplo: Correo Electrónico.
Grupo a cargo del Blog.
- Johan Martínez (Jefe de Grupo)
- Mario Mora (Vicepresidente)
- Williams Cardoza (Contabilidad, Finanzas, Estafas y otros)
- Sebastián Jara (Relacionador Público)
08 de Abril de 2010