Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

DATA MINING

Mineria de Datos
by

Carolina Barrera

on 6 June 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of DATA MINING

Data Mining DEFINICION Definiciones Los patrones frecuentes (tales como conjuntos de elementos, subsecuencias, o subestructuras) que aparecen en un conjunto de datos con frecuencia.

Encontrar tales patrones frecuentes juega un papel esencial en las asociaciones mineras, correlaciones, y muchas otras relaciones interesantes entre los datos. Además, ayuda en la clasificación de los datos, clustering, y otras tareas de minería de datos también. ORIGEN - Asocia datos a grupos predefinidos(aprendizaje supervisado)
- Encuentra modelos (funciones) que describen y
distinguen clases o conceptos para futuras
predicciones. La tarea de real de la minería de datos es el análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como: Requisitos del Análisis de Cluster ANALISIS DE
CLUSTER El análisis de clusters es una importante actividad humana.

Desde nuestra infancia, aprendemos a distinguir entre los gatos y los perros, o entre los animales y las plantas, mediante la mejora continua de los regímenes de agrupación subconscientes.

Por agrupamiento automático, es posible identificar regiones densas y dispersas en el espacio y por tanto, descubrir distribución general en los patrones y correlaciones interesantes entre los atributos de los datos. Aplicaciones Ejemplo Una diferencia importante entre los tipos de sistema es que las bodegas de datos no están generalmente en tercera forma normal (3NF), un tipo de normalización común de los datos en ambientes OLTP. Carga de Trabajo

Los almacenes de datos están diseñados para dar cabida a las consultas ad hoc.

Se puede no conocer la carga de trabajo del data warehouse por adelantado, por lo que el data warehouse debe ser optimizado para un buen rendimiento y para una amplia gama de posibles operaciones de consulta.

Sistemas OLTP sólo admiten operaciones predefinidas. Sus aplicaciones pueden ser optimizada o diseñada específicamente para soportar sólo estas operaciones. Los almacenes de datos y sistemas OLTP tienen requerimientos muy diferentes. Clasificación y predicción Clasificación y la predicción son dos formas de análisis de los datos que se pueden utilizar para extraer los modelos que describen las clases de datos importantes o para predecir las tendencias futuras de datos. Este análisis puede ayudar a darnos una mejor comprensión de los datos en general. Mientras que la clasificación predice categórico (discreto, sin orden) las etiquetas, los modelos de predicción continua de funciones con valores. Método basado en la densidad La mayoría de métodos están basados en la distancia entre los objetos. Tales métodos pueden encontrar sólo las agrupaciones de forma esférica y encontrar dificultad en descubrir grupos de formas arbitrarias. Otra agrupación de métodos se han desarrollado sobre la base de la noción de densidad. Su idea general es para continuar el crecimiento del grupo determinado, siempre y cuando la densidad (número de objetos o puntos de datos) en la "zona" excede un umbral, es decir, para cada punto de datos dentro de un grupo determinado, el barrido de un radio dado tiene que contener al menos un número mínimo de puntos. Tal método se puede utilizar para filtrar el ruido (valores atípicos) y descubrir un aglomerado de forma arbitraria.

Los métodos típicos: DBSACN, óptica, DenClue FIN Modelo basado en Patrones La agrupación de datos de grandes dimensiones es una tarea particularmente importante en el análisis de agrupamiento ya que muchas aplicaciones requieren el análisis de objetos que contienen un gran número de características o dimensiones.
La agrupación de datos de alta dimensión es un reto debido a la maldición de la dimensionalidad. Muchas medidas pueden no ser relevantes.
Basado en el análisis de los patrones frecuentes
Los métodos típicos: pCluster (Mineria de Datos) Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos.

La minería de datos se centra en llenar la necesidad de descubrir el por qué, para luego predecir y pronosticar las posibles acciones con cierto factor de confianza para cada predicción. La ventaja principal de este tipo de sistemas es, la estructura de la información. Este concepto significa que el almacenamiento de información es homogénea y fiable. Probabilidades del soporte y confianza Modificaciones de datos

Un almacén de datos se actualiza de forma regular por el proceso ETL (funcionamiento nocturno o semanal), utilizando técnicas de modificación masiva de datos. Los usuarios finales de un almacén de datos actualizan el almacén de datos no directamente.

En los sistemas OLTP, los usuarios finales de forma rutinaria emiten instrucciones individuales de modificación de datos a la base de datos. La base de datos OLTP está siempre al día, y refleja el estado actual de cada transacción comercial. Esquema de diseño

Los almacenes de datos suelen utilizar esquemas normalizados o parcialmente sin normalizar (por ejemplo, un esquema en estrella) para optimizar el rendimiento de las consultas.

Sistemas OLTP suelen utilizar esquemas totalmente normalizadas para optimizar actualizar / insertar / borrar, y garantizar la coherencia de los datos. Las operaciones típicas

Una consulta de datos en un típico almacén escanea miles o millones de filas. Por ejemplo, "Encontrar las ventas totales de todos los clientes el mes pasado."

Una típica operación OLTP accede sólo un puñado de registros. Por ejemplo, "Recuperar el orden actual para este cliente." Los datos históricos

Los almacenes de datos suelen almacenar muchos meses o años de datos. Esto es para apoyar el análisis histórico.

Los Sistemas OLTP suelen almacenar datos de sólo unas pocas semanas o meses. El sistema OLTP sólo almacena los datos históricos según sea necesario para cumplir con éxito los requisitos de la transacción actual. - Análisis discriminante
- árboles de decisión
- reglas de clasificación
- redes neuronales. Es necesario limpiar y procesar sus datos operativos antes de ponerlo en el almacén. Usted puede hacer esto mediante programación, aunque la mayoría de los almacenes de datos utilizan un área de ensayo en su lugar. Un área de ensayo simplifica resúmenes de construcción y gestión de almacén general. Aunque la arquitectura anterior es bastante común, es posible que desee personalizar la arquitectura de su almacén para diferentes grupos dentro de la organización. Usted puede hacer esto mediante la adición de mercados de datos, que son sistemas diseñados para una determinada línea de negocio. ¿Qué es el Análisis de Cluster? En los negocios, la agrupación puede ayudar a los comerciantes a descubrir grupos bien diferenciados en sus bases de clientes y caracterizar los grupos de clientes basándose en los patrones de compra.
En la biología, se utiliza para derivar taxonomías de plantas y animales, categorizar los genes con una funcionalidad similar, y obtener una perspectiva de las estructuras inherentes en las poblaciones.
identificación de áreas de uso de la tierra similar en una base de datos de observación de la Tierra y en la identificación de grupos de casas en una ciudad según el tipo de vivienda, el valor, y la ubicación geográfica.
También se puede utilizar para ayudar a clasificar los documentos en la Web para el descubrimiento de información. Enfoque basado en Grid Todos los de los las operaciones de clustering se llevan a cabo en la estructura de rejilla. La principal ventaja de este enfoque es su tiempo de procesamiento rápido, lo que es típicamente independiente de el número de objetos de datos .

Esta basado en una estructura de varios niveles de granularidad
Los métodos típicos: STING, WAVECLUSTER, Camarilla Método Jerárquico Se crea una descomposición jerárquica del conjunto de objetos de datos.
Se clasifica como siendo de aglomeración o de división, basado en cómo se forma la descomposición jerárquica. El enfoque de aglomeración, también llamado el enfoque de abajo hacia arriba, aca se fusionan los objetos o grupos que están cerca uno del otro, hasta que todos los grupos se han fusionado en uno (el nivel más alto de la jerarquía).
El enfoque de división, también llamado el enfoque de arriba hacia abajo, comienza con todos los objetos de la misma categoría. En cada iteración sucesiva, un grupo se divide en grupos más pequeños, hasta que al final de cada objeto está en un cluster, o hasta que una condición de terminación se mantiene.
Los métodos típicos: Diana, Agnes, abedul, ROCK, CAMELEON Método de creación de particiones Dada una base de datos de n objetos o tuplas de datos, un método de partición construye k particiones de los datos, donde cada partición representa un cluster y k ≤ n. Es decir, que clasifica los datos en grupos de k, que en conjunto cumplen los siguientes requisitos: (1) cada grupo debe contener al menos un objeto, y (2) cada objeto debe pertenecer a exactamente un grupo.

Los métodos típicos: k-means, K-medoids, CLARANS Carolina Barrera Williams Contenido Conceptos de Minería de Datos
¿Qué es la Minería de Datos?
Orígenes de la Minería de Datos

Patrones frecuentes en la minería: Asociación y correlación Pasos en el diseño del almacén de datos: Paso 1. Elegir un “proceso” de la organización para modelar.

Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso

Paso 3. Identificar las dimensiones que caracterizan el proceso.

Paso 4. Decidir la información a almacenar sobre el proceso. DISEÑO DE UN ALMACÉN DE DATOS
EJEMPLO Paso 4.
Decidir la información a almacenar sobre el proceso. Paso 3.
Identificar las dimensiones
que caracterizan el proceso. Ejemplo:
Cadena de supermercados. Paso 3.
Identificar las dimensiones
que caracterizan el proceso. Paso 2.
Decidir el gránulo (nivel
de detalle) de representación. Paso 1.
Elegir un “proceso” de la organización para modelar. Pasos Proceso: actividad de la organización Ejemplo: Cadena de supermercados.
– Cadena de supermercados con 50 almacenes
en la que se expenden unos 30.000 productos
distintos.

Actividad: Ventas.
– La actividad a modelar son las ventas de
productos en los almacenes de la cadena. El gránulo define el nivel atómico de datos en el almacén de datos.
El gránulo determina el significado de las tuplas de la tabla de hechos.
El gránulo determina las dimensiones básicas del esquema Gránulo: es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar. Ejemplo: Cadena de supermercados. Gránulo: Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada almacén de la cadena”. Define el significado de las tuplas de la tabla de hechos.
Determina las dimensiones básicas del esquema. Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido. Tiempo dimensión temporal: ¿cuándo se produce la actividad?
Producto dimensión ¿cuál es el objeto de la actividad? Almacén dimensión geográfica: ¿dónde se produce la actividad?
Cliente dimensión ¿quién es el destinatario de la actividad? De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad. Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año) Tabla de Dimensión Hechos: información (sobre la actividad) que se desea almacenar en cada fila de la tabla de hechos y que será el objeto del análisis.
Precio
Unidades
Importe Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada establecimiento de la cadena”. Importe total de las ventas del producto en el día
Número total de unidades vendidas del producto en el día
Número total de clientes distintos que han comprado el producto en el día. Modelo Final BIBLIOGRAFIA
http://docs.oracle.com/cd/B19306_01/server.102/b14223.pdf#page44

http://www.programacion.com/articulo/data_mining_201/1

http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=dataminig Fredy A. Orozco Forero Felipe Romero Clasificación y Predicción

Análisis de Cluster's La investigación reciente de minería de datos se ha basado en dicho trabajo, el desarrollo de la clasificación escalable y técnicas de predicción capaz de manejar grandes residentes en disco de datos. Mineria de patrones frecuentes, asociaciones y correlaciones Regla de asociación El Análisis de cluster permite clasificar una población en un número determinado de grupos, en base a semejanzas y diferencias de perfiles existentes entre los diferentes componentes de dicha población. Los grupos de registros de datos (análisis cluster)
Registros poco usuales (la detección de anomalías)
Dependencias El soporte y la confianza son dos criterios de medida interesantes que reflejan, respectivamente, la utilidad y certeza de la regla. Las reglas de asociación que se tienen en cuenta son las que cumplen con dos criterios: umbral mínimo de soporte y umbral mínimo de confianza. Estos umbrales son ajustados por los usuarios o el experto del dominio Un conjunto de elementos es también llamado itemset, por ejemplo {computador, antivirus}. La frecuencia de ocurrencia de un conjunto de elementos es el número de transacciones que contienen el conjunto de elementos. Esto también se conoce, simplemente, como la frecuencia, el recuento de soporte, o el recuento del conjunto de elementos. Encontrar todos los itemset frecuentes. Generar reglas de asociación fuertes desde los itemsets frecuentes: por lo general estas reglas deben satisfacer el soporte mínimo y la confianza mínima Tipos de Datos en el Análisis de Cluster's Los Principales algoritmos de agrupación basados en la memoria funcionan típicamente en cualquiera de las siguientes dos estructuras de datos. Capacidad para hacer frente a los datos ruidosos

Agrupación incremental e insensibilidad a la orden de los registros de entrada

Restricciones de Agrupación

Interpretabilidad y facilidad de uso Clustering Escalabilidad

Capacidad para hacer frente a diferentes tipos de atributos

Descubrimiento de grupos de forma arbitraria

Alta Dimensionalidad Con estos requisitos, nuestro estudio de análisis procede de la siguiente manera. Minería de reglas de asociación 1. Se estudian diferentes tipos de datos y cómo pueden influir en los métodos de agrupamiento. 2. se presenta una clasificación general de los métodos de la agrupación. Métodos de minería de itemset frecuentes escalables y eficientes El algoritmo Apriori: encontrar conjuntos de elementos frecuentes Usando Generación Candidatos Generating Association Rules from Frequent Itemsets Minería conjuntos de elementos frecuentes y sin generación Candidato Matriz de datos (o un objeto por variable de estructura) Matriz de disimilitud (o estructura objeto por objeto) La estructura es en forma de una tabla relacional, o n-por-p matriz (n objetos × p variables): Esto almacena una colección de próximos que están disponibles para todos los pares de n objetos. Calculo de una Matriz
de Disimilitud Variables de intervalo-escala Variables Binarias Variables nominales y ordinales Variables de tipo Mixto Variables de intervalo-escala
Variables binarias
Variables nominales, ordinales
Variables de tipo mixto Calcula la desviación media absoluta:


donde


La desviación media absoluta es más robusta que la desviación estándar Una tabla de contingencia para los datos binarios Una variable ordinal puede ser discreta o continua
El orden es importante, por ejemplo, el rango
Puede ser tratado como el intervalo de escalas Una base de datos puede contener todos los seis tipos de variables: binaria simétrica, binaria asimétrica, nominal, ordinal, intervalo y proporción. La minería de datos se ha insertado desde los años 90 en el contexto de las tecnologías de la información, algoritmia y desarrollo de software. 1990 2002 Análisis de regresión, desviación estándar, varianza, análisis de clustering, intervalos de confianza, entre otros. Ciertamente, en las herramientas y técnicas utilizadas en minería de datos, el análisis de estadística clásica juega un rol sumamente importante. Inteligencia Artificial 1997 Aprendizaje Automático 2007 Minería de datos predictiva (MDP) : Usa primordialmente técnicas estadísticas

Minería de datos para descubrimiento de conocimiento (MDDC) : Usa principalmente técnicas de inteligencia artificial 2012 Las líneas de desarrollo en el ámbito de minería de datos tienen sus orígenes en tres conceptos importantes: Estadística Clásica Esta disciplina se encuentra basada en heurísticas, de forma opuesta a la estadística, pero su implementación necesitaba de computadoras con un poder de procesamiento alto Podemos describir como la unión de las estadísticas e Inteligencia Artificial porque conjunta heurísticas con análisis estadístico avanzado. La Minería de datos puede ser dividida en: Categorización de los métodos de agrupación Métodos basados en modelos Se plantean la hipótesis de un modelo para cada uno de los clusters y encontrar el mejor ajuste de los datos al modelo dado. Un algoritmo basado en modelos puede localizar grupos mediante la construcción de una función de densidad que refleja la distribución espacial de los puntos de datos. También conduce a una forma de determinar automáticamente el número de grupos basados en las estadísticas normales, teniendo el "ruido" o valores atípicos en cuenta y lo que se obtiene la agrupación métodos robustos.

Los métodos típicos: EM, SOM, COBWEB Modelo basado en restricciones Es un enfoque de agrupación que realiza la incorporación de las limitaciones especificadas por el usuario o la aplicación. Una restricción expresa la expectativa de un usuario o describe "propiedades" de la agrupación de resultados deseados, y proporciona un medio eficaz para la comunicación con el proceso de agrupación. Hay varios tipos de restricciones pueden ser especificados, ya sea por el usuario o según los requisitos de la aplicación.

Los métodos típicos: COD (obstáculos), la agrupación limitado Existen muchos algoritmos de agrupamiento en la literatura. Es difícil proporcionar una nítida categorización de los métodos de agrupación debido a que estas categorías se pueden solapar, por lo que un método puede tener características de varias categorías. En general, los principales métodos de la agrupación se pueden clasificar en las siguientes categorías El análisis de clusters ha sido ampliamente utilizado en numerosas aplicaciones: El nombre del algoritmo se basa en el hecho de que el algoritmo utiliza el conocimiento previo de las propiedades de conjunto de elementos frecuentes Una vez que se ha encontrado que los conjuntos de elementos frecuentes de transacciones en una base de datos D, es sencillo para generar reglas de asociación fuertes de ellos (donde las reglas de asociación satisfacen tanto soporte y la confianza mínima). mejorando la eficiencia de Apriori Hash-based technique Transaction reduction Partitioning Sampling Dynamic itemset counting Enmarcado en dos aspectos de costos no triviales: FP-growth Minería de asociación basada en restricciones Un proceso de minería de datos puede revelar miles de reglas a partir de un determinado conjunto de datos, la mayoría de los cuales terminan siendo ajeno o poco interesante para los usuarios. A menudo, los usuarios tienen una buena idea de que "dirección" de la minería puede dar lugar a patrones interesantes y la "forma" de los patrones o reglas que les gustaría encontrar. Por lo tanto, una buena heurística es hacer que los usuarios especifiquen tal intuición o expectativas como limitaciones de limitar el espacio de búsqueda. Esta estrategia se conoce como la minería basada en restricciones. Elementos Restricciones de tipo de conocimiento: Estos especificar el tipo de conocimiento que se extrae, como asociación o correlación. Restricciones de datos: Estos especifican el conjunto de datos relevantes para la tarea. Restriciones Dimensión/nivel: Estos especificar las dimensiones deseadas (o atributos) de los datos, o los niveles de las jerarquías de conceptos, para ser utilizado en la minería. Restricciones Intereses: Estos señalan umbrales de las medidas estadísticas de reglas de interes, como el soporte, la confianza y la correlación. Restricciones de regla: Estos especificar el tipo de normas que deben minadas. Tales restricciones pueden ser expresados como metareglas (plantillas de reglas), como el número máximo o mínimo de predicados que pueden ocurrir en el antecedente de una regla o consecuente, o como relaciones entre los atributos, valores de atributos, y / o agregados. Clasificación: Métodos: Clasificación contra predicción En alguna literatura de minería de datos se considera a la clasificación como el emparejamiento contra clases (etiquetas de
valores), mientras que la predicción está asociada a valores continuos. Es decir, en el conjunto de entrenamiento la variable objetivo es una variable continua.

Finalmente, clasificación y predicción vienen siendo lo mismo, aunque se pueden hacer la diferenciación según el tipo de variable. Predicción: la predicción en minería de datos es muy usada comúnmente en aplicaciones de negocios, estudios generales, etc.

El método mas usado es el de arboles de decisiones
Full transcript