Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Reglas de asociacion y modelos estadisticos

No description

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Reglas de asociacion y modelos estadisticos

Reglas de asociación y modelos estadísticos
Soporte y confianza
Reglas de asociación
Las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
Definicion
Forma general: X-->Y, donde X e Y son conjuntos de ítems.
Soporte
Soporte(X-->Y) = Prob(X U Y) = Soporte(X U Y)


Confianza

Confianza (X-->Y) =
Soporte (X U Y)
Prob(Y / X) = -------------------------
Soporte (X)

Describen relaciones entre variables en grandes conjuntos de datos.


Ejemplo
Estudiantes que cursan Inteligencia Artificial tienden
a cursar Taller de Sistemas Multiagentes.

X es denominado el antecedente de la regla e Y su consecuente.
Soporte: El soporte para X-->Y es el porcentaje de las transacciones que contienen todos los ítems de X e Y.
Confianza: la confianza para X-->Y es el porcentaje de transacciones que contienen Y, entre las transacciones que contienen X.
Tipos de reglas de asociacion

Basadas en el tipo de valores manejados
Reglas de asociación booleanas vs.
cuantitativas
Reglas unidimensionales vs.
multidimensionales

Según las dimensiones de los datos
involucrados

Reglas de un nivel vs. multinivel
Según el nivel de abstracción involucrado
Definición formal del problema
I = { i1, i2, … , im } es un conjunto de ítems.

D es un conjunto de transacciones Tj.

Cada transacción Tj es un conjunto de ítems (subconjunto de I)
Algoritmos
Se calcula el soporte de cada ítem individual, y se
determinan los 1-itemsets frecuentes.

2. En cada paso subsecuente, los itemsets frecuentes
generados en los pasos anteriores se utilizan para
generar los nuevos itemsets (itemsets candidatos).

3. Se calcula el soporte de cada itemset candidato y
se determinan los itemsets frecuentes.

4. El proceso continúa hasta que no pueden ser
encontrados nuevos itemsets frecuentes
A priori
Extiende el algoritmo Apriori.

Una regla de asociación generalizada X --> Y es
definida idénticamente a una regla de
asociación regular, excepto que ningún ítem de
Y puede ser ancestro de un ítem de X.

Agregar todos los ancestros de cada ítem en t a
t, removiendo duplicados.
Algoritmo Basic (Srikant y Agrawal)
Piatetsky-Shapiro describe el análisis y la presentación de reglas 'fuertes' descubiertas en bases de datos utilizando diferentes medidas de interés. Basado en el concepto de regla fuerte, Agrawal et al. presentaron un trabajo en el que indicaban las reglas de asociación que descubrían las relaciones entre los datos recopilados a gran escala en los sistemas de terminales de punto de venta de unos supermercados. Por ejemplo, la siguiente regla:

{cebollas,vegetales} --> {carne}

Encontrada en los datos de ventas de un supermercado, indicaría que un consumidor que compra cebollas y vegetales a la vez, es probable que compre también carne.

Un modelo estadístico es una ecuación matemática que reproduce los fenómenos que observamos de la forma más exacta posible. Para ello tiene en cuenta los datos suministrados y la influencia que el azar tiene en estas observaciones.El modelo es diferente cada vez que se modifica la información.

Modelo estadístico
El gráfico representan a cinco municipios de una región elegidos al azar. Para cada uno de ellos se han recogido dos valores: El número de habitantes censados (eje horizontal) y el número de casos de gripe diagnosticados el último año (eje vertical). El gráfico resultante se denomina nube de puntos o gráfico de dispersión.
Al estar los municipios alineados, el mejor modelo para representar la relación entre número de habitantes y casos de gripe es una línea recta, dada por: Casos = 0.70 x (Habitantes) - 16.61. Con ella se puede predecir el número de casos de gripe esperado en otro municipio con 211 habitantes de la misma región: Casos = 0.70 x 211 – 16.61 = 131. Este modelo lineal es el más sencillo que se puede ajustar, pero no siempre es el más adecuado. Sólo es válido cuando los puntos del gráfico están distribuidos alrededor de una recta.
Modelo lineal

El coeficiente de correlación lineal es una medida para conocer si una recta es el mejor modelo para representar lo que observamos. Sin tener en cuenta su signo positivo o negativo, cuanto más próximo a 1 esté más apropiado será el modelo lineal.


El modelo lineal sólo es válido cuando los puntos del gráfico están distribuidos alrededor de una recta. Cuando se distribuyen en forma de herradura, el coeficiente de correlación es casi cero, indicando que la recta no es la mejor opción. Si utilizamos un modelo lineal, llegaremos a la conclusión errónea de que el número de casos de gripe no varía con el número de habitantes. En estos casos es necesario recurrir a modelos estadísticos más complejos para estudiar la relación entre ambas variables.
Full transcript