Zoho Share
en 17:53Es el nombre de un conjunto de aplicaciones Web desarrolladas por la empresa estadounidense AdventNet. Para poder utilizar dichas herramientas es obligatorio registrarse, la gran mayoría de estas herramientas son de carácter gratuito y cabe destacar que muchas de las herramientas se encuentran aún en fase beta.
Zoho Share es un servicio en donde el usuario puede buscar y compartir los archivos favoritos.
Buscar: Busca archivos en base a distintos tipos de archivos Presentaciones, Documentos, PDF y Hojas de cálculo, basándose en tiempo, popularidad, licencia, etiquetas, o busca tus documentos favoritos con las palabras clave preferidas.
Compartir: Sube tus archivos favoritos y publícalos con la licencia que prefieras. Nosotros utilizamos creative commons para las licencias. También puedes crear archivos sin conexión.
- Es denominado el Youtube de los documentos.
- Soporta todos los formatos de Zoho, archivos PDF, documentos de Microsoft Word y otros formatos populares.
- Los usuarios pueden darle grado y comentar todos los documentos compartidos.
- Tiene un buen visor el cual se puede utilizar para los documentos por ejemplo los PDF.
Consiste en la extracción de información que reside en los datos, es decir que prepara, sondea y explora los datos para sacar la información oculta y que podría ser útil para algún proceso.
Características
- Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos.
- Los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
- El entorno de la minería de datos suele tener una arquitectura cliente-servidor.
- Las herramientas de la minería de datos ayudan a extraer la materia prima de la información enterrada en archivos corporativos o en registros públicos.
- La minería de datos produce cinco tipos de información:
- Asociaciones.
- Secuencias.
- Clasificaciones.
- Agrupamientos.
- Pronósticos.
- Filtrado de datos. El formato de los datos contenidos en su fuente de origen nunca es el correcto, y la mayoría de las veces no es posible utilizar ningún algoritmo de minería sobre los datos en bruto.
- Selección de Variables. Después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad enorme de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.
- Extracción de Conocimiento. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.
- Interpretación y Evaluación. Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.
Estas técnicas son:
- Redes neuronales. Paradigma de aprendizaje y procesamiento automático inspirado en la forma como funciona el sistema nervioso del ser humano. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida
- Regresión lineal. Forma relaciones entre datos. Es rápida y eficaz, pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
- Árboles de decisión. Es un modelo de predicción que se utiliza en la inteligencia artificial, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.
- Modelos estadísticos. Expresión simbólica representada por una igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
- Agrupamiento. Procedimiento de agrupación de una serie de vectores según criterios de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.
Es una de las extensiones de la minería de datos, consiste es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer información del contenido de las páginas, de sus enlaces y de los registro de navegación de los usuarios.
De acuerdo a los objetivos de análisis, la minería Web se puede dividir en tres tipos diferentes:
- Web Content Mining (minería de contenido Web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones.
- Web Structure Mining (minería de estructura Web). Es el proceso de inferir conocimiento de la organización de la Web y la estructura de sus enlaces.
- Web Usage Mining (minería de uso Web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al Web.
- Análisis de riesgos en créditos: Esta es una aplicación similar detección de fraudes, pero con la ventaja de de la existencia de maneras tradicionales para realizarlo. El clásico procedimiento de asignación de puntos puede ser complementado y mejorado con la ayuda de la minería de datos.
- Clasificación de cuerpos celestes: Debido a la gran contribución a estas tareas por parte del reconocimiento de imágenes y los pre-procesamientos involucrados, esta aplicación también puede considerarse como perteneciente al área del reconocimiento de patrones de imágenes.
- Terrorismo: La minería de datos ha sido utilizada por la unidad Able Danger del Ejército de los EE.UU. quien había identificado al líder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros secuestradores como posibles miembros de Al Qaeda que operaban en los EE.UU. un año antes del ataque.
- Ingeniería eléctrica: Las técnicas minería de datos han sido ampliamente utilizadas para monitorear las condiciones de las instalaciones de alta tensión. La finalidad de esta monitorización es obtener información valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como los Mapas Auto-Organizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías.
- Patrones de fuga: Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. Existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para pasarse a la competencia. A estos clientes se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que se dieron de baja en el pasado.
- Fraudes: Un caso análogo es el de la detección de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
- Recursos humanos: La minería de datos también puede ser útil para estos departamentos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.
CUBOS OLAP
en 23:22OLAP significa, procesamiento analítico en línea (On-Line Analytical Processing), que es una manera de organizar los datos contenidos en una base de datos para que se ajusten al modo que tienen los usuarios de analizarlos: en categorías jerárquicas y en valores de resumen previamente calculados.
Un cubo OLAP proporciona sólo los resultados resumidos de los informes, en vez de una gran cantidad de registros individuales, para que sea posible analizar muchos datos que, de otra forma, no podrían manejar los recursos del sistema.
Cuando se crea un cubo OLAP a partir de los datos de una base de datos relacional, se llevan a cabo los pasos iniciales de la creación de informes que necesiten los usuarios.
CONCEPTOS BÁSICOS RELACIONADOS CON LOS CUBOS OLAP
Campos de datos y dimensiones.
Una consulta OLAP permite elegir una serie de datos plana, aplicar una organización jerárquica a los campos y definir los valores de resumen que desee calcular.
El cubo resultante contiene dos tipos de datos: valores resumidos y sus hechos descriptivos. Los valores que se van a resumir, como el número de elementos vendidos, se denominan campos de datos. Los hechos descriptivos, como la fecha y la ubicación de cada venta, se organizan por niveles de detalle denominados dimensiones.
Para organizar los campos se puede utilizar el mismo tipo de categorías que los usuarios emplean para analizar los datos de los informes. Los campos de datos y las dimensiones facilitan el proceso de mostrar resúmenes de alto nivel en los informes, como el total de ventas de un país o de una región, y también muestran los detalles de bajo nivel, como los lugares en los que las ventas son especialmente altas o bajas.
En el diseño de un cubo debemos especificar el origen de datos más eficazmente.
Todos los campos de un cubo deben ser campos de datos o dimensiones y cada uno de los campos de datos debe designarse como uno de los dos tipos. Para que una consulta o una selección se ejecute más eficazmente y que los informes que se realicen a partir de ella se actualicen más rápidamente, debe incluir en el cubo sólo los campos que vaya a utilizar. Antes de continuar con este asistente, es posible que desee comprobar si la consulta o la selección de los datos de origen incluye todos los datos deseados y únicamente esos datos.
VISUALIZACION DE LOS DATOS EN CUBO OLAP
Los datos se almacenan en una estructura de cubo (es como si estuviera totalmente indexado) y la velocidad de acceso se hace mucho mas eficiente.
En este caso, la primera consulta nos muestra los puntos que han acumulado los titulares de la tarjeta clásica, en todos los tipos de cabinas y en todos los meses. Mientras, que en la segunda filtramos el cubo para los que volaron en turista. Este tipo de consultas devuelve los datos de forma instantánea.
EJEMPLO CUBO OLAP EN LA EMPRESA
Un analista financiero podría querer ver los datos de diversas formas, por ejemplo, visualizándolos en función de todas las ciudades (que podrían figurar en el eje de abscisas) y todos los productos (en el eje de ordenadas), y esto podría ser para un período determinado, para la versión y el tipo de gastos.
Después de haber visto los datos de esta forma particular el analista podría entonces querer ver los datos de otra manera y poder hacerlo de forma inmediata. El cubo podría adoptar una nueva orientación para que los datos aparezcan ahora en función de los períodos y el tipo de coste.
Debido a que esta reorientación implica resumir una cantidad muy grande de datos, esta nueva vista de los datos se debe generar de manera eficiente para no malgastar el tiempo del analista, es decir, en cuestión de segundos, en lugar de las horas que serían necesarias en una base de datos relacional convencional.
MODELO DE DATOS
MOLAP: usa unas bases de datos multidimensionales para proporcionar el análisis, su principal premisa es que los datos se encuentran almacenados en una estructura de datos multidimensionales para ser visualizada en varias dimensiones de análisis. El sistema MOLAP utiliza una arquitectura de dos niveles: la bases de datos multidimensionales y el motor analítico. La base de datos multidimensional es la encargada del manejo, acceso y obtención del dato.
ROLAP: La arquitectura ROLAP, accede a los datos almacenados en una data Warehouse para proporcionar los análisis OLAP. La premisa es que los datos se encuentran almacenados en bases de datos relacionales. El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad analítica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtención del dato. El nivel de aplicación es el motor que ejecuta las consultas multidimensionales de los usuarios. El motor ROLAP se integra con niveles de presentación, a través de los cuáles los usuarios realizan los análisis OLAP. Después de que el modelo de datos para el data Warehouse se ha definido, los datos se cargan desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si así es requerido por los modelos de datos. Se crean entonces los índices para optimizar los tiempos de acceso a las consultas. Los usuarios finales ejecutan sus análisis multidimensionales, a través del motor
ROLAP, que transforma dinámicamente sus consultas a consultas SQL. Se ejecutan estas consultas en las bases de datos relacionales, y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios.
HOLAP: Un desarrollo un poco más reciente ha sido la solución OLAP híbrida (HOLAP), la cual combina las dos arquitecturas anteriores para brindar una solución con las mejores características de ambas: desempeño superior y gran escalabilidad. Un tipo de HOLAP, lo que hace es mantener los registros de detalle (los volúmenes más grandes) en la base de datos relacional, mientras que los datos agregados se almacenan en una base de datos multidimensional separada.
Los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios
El ingreso de datos en la data Warehouse viene desde el ambiente operacional en casi todos los casos. La data Warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.
OBJETIVOS FUNDAMENTALES
• Información de la organización sea accesible: los contenidos son entendibles (los niveles de la información sean correctos y obvios) y navegables (el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic), y el acceso a ellos son caracterizado por el rápido desempeño (cero tiempo de espera).
• Información de la organización sea consistente (toda la información es contabilizada y completada): la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes.
• Información adaptable y elástica: el Data Warehouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen.
• Segura fortificación que protege los valores de la información: el Data Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos.
CARACTERÍSTICAS DE LA DATA WAREHOUSE
Orientado al tema: la información se clasifica en base a los aspectos que son de importancia para la organización, los datos que son tomados están en contraste con los procesos clásicos orientados a las aplicaciones.
Integrado: El aspecto más importante de la data Warehouse es que la información encontrada al interior está siempre integrada. la integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.
De tiempo variable: Toda la información de la data Warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso. Como la información en el data Warehouse es solicitada en cualquier momento, los datos encontrados en el depósito se llaman de "tiempo variante".
No volátil: La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable.
Funciones Etl (Extracción, Transformación Y Carga)
Los procesos de extracción, transformación y carga, son importantes ya que son la forma en que los datos se guardan en un data Warehouse (o en cualquier base de datos). Implican las siguientes operaciones:
Extracción: consiste en extraer los datos desde los sistemas de origen. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano.
Transformación: Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados el data Warehouse o se puedan migrar de éste a otra base de datos. Algunas transformaciones necesarias para ciertos casos.
o Seleccionar sólo ciertas columnas para su carga: columnas con valores nulos no se carguen
o Traducir códigos: "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer
o Codificar valores libres: convertir "Hombre" en "H" o "Sr." en "1"
o Obtener nuevos valores calculados: total_venta = cantidad * precio
o Unir datos de múltiples fuentes: búsquedas, combinaciones
o Calcular totales de múltiples filas de datos Generación de campos clave en el destino: ventas totales de cada región
o Transponer columnas (girando múltiples columnas en filas o viceversa).
o División de columnas en varias: columna "Nombre"; pasar a dos columnas "Nombre" y "Apellido"
La aplicación simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera:
- Datos OK: Entregar datos a la siguiente etapa.
- Datos erróneos: Ejecutar políticas de tratamiento de excepciones
- Carga: es el momento en el cual los datos de la fase anterior son cargados en el sistema de destino. Las data Warehouse mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
o Acumulación simple: Consiste en realizar un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data Warehouse, almacenando un valor calculado que consistirá en una sumatorio o promedio de la magnitud considerada.
o Rolling: Se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).
La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación se aplicarán todas las restricciones y triggers (contribuyen a que se garantice la calidad de los datos en el proceso ETL, y deben ser tenidos en cuenta) que se hayan definido en ésta (por ejemplo, valores únicos, integridad referencial, campos obligatorios, rangos de valores).
Middleware
Es un software de conectividad que ofrece un conjunto de servicios que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Funciona como una capa de abstracción de software distribuida, que se sitúa entre el sistema operativo y red. El Middleware nos abstrae de la complejidad y heterogeneidad de las redes de comunicaciones subyacentes, así como de los sistemas operativos y lenguajes de programación, proporcionando una API para la fácil programación y manejo de aplicaciones distribuidas.
La función del Middleware, es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacén de datos.
Tipos De Middleware
o Remote Procedure Call (RPCs) : El cliente realiza una llamada a procedimientos que están ejecutando en máquinas remotas. Este procesos puede síncronos o asíncronos.
o Publish/subscribe: Este tipo de monitores middleware activan y entregan información relevante para los subscriptores.
o Message-oriented middleware (MOM): Los mensajes enviados al cliente se recogen y se almacenan hasta que son solicitados, mientras el cliente continúa realizando otros procesos.
o Object Request Broker (ORB): Este permite que los clientes envíen objetos y soliciten servicios en un sistema orientado a objetos.
o SQL-oriented Data Access: middleware entre las aplicaciones y los servidores de base de datos.
VENTAJAS Y DESVENTAJAS DE DATA WAREHOUSE
Ventajas
- La Data Warehouse hace más libre el acceso a una gran variedad de datos.
- Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión.
- La Data Warehouse pueden trabajar en conjunto y aumentar el valor operacional de las aplicaciones empresariales.
Inconvenientes
- Los costos de mantenimiento son elevados.
- Se pueden quedar obsoletos relativamente pronto.
DATA MART
Es una base de datos departamental, especializada en almacenar datos de un área de negocios específica. Caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Este puede ser alimentado desde los datos de un data Warehouse, o integrar por si mismo un compendio de distintas fuentes de información. Es orientado a la consulta y se consulta mediante los cubos Olap.
Ventajas
o Fácil acceso a los datos que se necesitan frecuentemente.
o Crea vista colectiva para grupo de usuarios.
o Mejora el tiempo de respuesta del usuario final.
o Facilidad de creación.
o Costo inferior al de la aplicación de un completo almacén de datos.
Cisco ha publicado los resultados de un estudio mundial, orientado a evaluar cómo utilizan las empresas las redes sociales para colaborar de forma externa. Entre las conclusiones del estudio, destaca el aumento de las redes sociales en el entorno empresarial y la necesidad de un sistema de control y una implicación más directa por parte de los departamentos de TI en las empresas. “El aumento de usuarios conectados está impulsando un cambio de actitud ante el mercado en la empresa, generando “negocios impulsados por las personas”, donde las herramientas de redes sociales y tecnologías de cooperación son el combustible en la productividad de próxima generación”, afirma Nick Earle, vicepresidente senior en Cisco Services. “En la adopción de la tremenda capacidad de las redes sociales triunfarán las empresas que sean capaces de diseñar una arquitectura informática colaborativa que respalde el uso de esas tecnologías, protegiéndose ante los riesgos que plantean”.
Redes sociales, herramienta de colaboración
Las conclusiones del estudio indican que el mundo empresarial está en las primeras fases de adopción de las redes sociales como herramientas de colaboración. El uso de redes sociales, como Facebook y Twitter, como plataformas de colaboración, está conectando a las organizaciones con el mundo exterior en multitud de formatos.
Algunos de los datos relevantes de este primer barómetro son:
El 75% de las organizaciones entrevistadas identifica las redes sociales como las herramientas de difusión social que más utilizan, mientras que apenas el 50% identifica también el uso extendido del microblog.
Las herramientas de redes sociales están llegando a las áreas fundamentales de la cadena de valor, como los departamentos de marketing, comunicaciones, relaciones humanas y servicio al cliente. Las pequeñas y medianas empresas usan activamente los canales de redes sociales para generar clientes potenciales, pero aún sigue siendo una posibilidad de crecimiento reservada para las empresas más grandes.