Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Algoritmo Naive Bayes

No description
by

Francisco Javier Achipiz Velasco

on 13 December 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Algoritmo Naive Bayes

Algoritmo
"Naïve Bayes"
aplicado a la
Minería de Datos

Introducción
Características
Provee un método probabilístico para al inferencia.

Supone que las cantidades de interés son dominadas por las distribuciones de probabilidad y que las decisiones óptimas pueden ser hechas por razonamientos acerca de esas probabilidades junto con los datos observados.

Consiste en sopesar las diferentes hipótesis y asignarles una probabilidad de acuerdo a los datos de entrenamiento que clasifica correctamente.

Proveen una perspectiva útil para entender muchos algoritmos de aprendizaje que no manejan implícitamente las probabilidades.
Características
•Pueden adaptar hipótesis que pueden hacer predicciones probabilísticas.

•Las nuevas instancias pueden ser clasificados combinando las predicciones de hipótesis múltiples, medidas por su probabilidad.

•Requiere conocimiento inicial de muchas probabilidades, cuando no se conocen deben ser estimados basándose en conocimiento de fondo.

•Tiene un coste computacional elevado. En el caso general es lineal con el número de hipótesis candidatas.
•Cada ejemplo de entrenamiento observado puede incrementar o disminuir la probabilidad estimada de una hipótesis.

•El conocimiento a Priori puede ser combinado con los datos observados para determinar la probabilidad final de una hipótesis.

•El conocimiento a Priori es obtenido a partir de: La probabilidad para cada hipótesis candidata y la distribución de la probabilidad sobre los datos observados para cada posible hipótesis.
Teorema de Bayes
Probabilidad a Priori

La probabilidad a priori asociada a una preposición A es el grado de creencia que se le otorga en ausencia de otra información.

Llamaremos P(h) a la probabilidad de que la hipótesis h sea cierta o Probabilidad a priori de la Hipótesis h.

Refleja el conocimiento que tenemos sobre las oportunidades de que la hipótesis h sea cierta antes de recibir ninguna observación.

Si no tenemos ningún conocimiento a priori, se le podrá asignar la misma probabilidad a todas las hipótesis P(h).
Teorema de Bayes
Probabilidad Condicional o Posteriori:

Cuando se obtiene nueva información la probabilidad a Posteriori es remplazada por la probabilidad condicional, que es información extraída de la distribución de los datos de entrenamiento P(A|B).
Teorema de Bayes
•P(h) es la probabilidad a priori de la hipótesis h.
•P(D) es la probabilidad de observar el conjunto de entrenamiento D.
•P(D|h) es la probabilidad de observar el conjunto de entrenamiento D en un universo donde se verifica la hipótesis h.
•P(h|D) es la probabilidad a posteriori de h, cuando se ha observado el conjunto de entrenamiento D.
Teorema de Bayes
El aprendiz considera un espacio finito de hipótesis H definido sobre un conjunto de instancias X en el cual la tarea es aprender un concepto objetivo c: X-> {0,1}

Asumimos que este aprendiz tiene un conjunto de datos de entrenamiento D={<x1, c(x1)>, <x2,c(x2)>, ..., <xm, c(xm)>} donde xi es alguna instancia de X y di es el valor objetivo de xi.

Podemos diseñar un algoritmo de aprendizaje sencillo que tenga como salida la hipótesis a posteriori máximo basado en el teorema de Bayes.
MAP - Máximo a Posteriori
Se denomina así a la hipótesis h en H más probable aplicando el teorema de Bayes:
MAP - Máximo a Posteriori
Los datos de entrenamiento no contienen ruido.
El concepto objetivo existe en el conjunto de hipótesis H.
No tenemos un razonamiento a priori para pensar que una hipótesis es mas probable que otra. Todas las hipótesis tienen la misma probabilidad.
La suma de las probabilidades de todas las hipótesis debe sumar 1.
Si la h es inconsistente su probabilidad es 0, caso contrario, si la h es consistente con los ejemplos de entrenamiento la probabilidad tiende a 1. El conjunto de ellas, son soluciones MAP.
Clasificador Naive Bayes
Uno de los mejores métodos de aprendizaje en la práctica.
Comparable a redes de neuronas y árboles de decisión.

Se Puede aplicar cuando:

Se dispone de conjuntos de entrenamiento de tamaño medio o grande.

Los atributos que describen a los ejemplos son independientes entre sí con respecto al concepto que se pretende aprender
Clasificador Naive Bayes
Características:
•Cada ejemplo x se describe con la conjunción de los valores de sus atributos: <a1,a2, … an>.
•La función objetivo f(x) puede tomar cualquier valor de un conjunto finito V.
•La clasificación viene dada por el valor de máxima probabilidad a posteriori: vMAP.
Clasificador Naive Bayes
Los términos se han de estimar basándose en los ejemplos de entrenamiento.
•P(vj) contando la frecuencia con la que ocurre cada valor vj
•Hay demasiados términos de la forma P(a1,a2,…an|vj). Harían falta muchísimos ejemplos de entrenamiento para obtener una buena estimación.
Clasificador Naive Bayes
La suposición del clasificador naive es que los atributos son independientes entre sí con respecto al concepto objetivo, por lo tanto:
La aproximación del clasificador bayesiano naive es:
Las probabilidades P(ai|vj) resultan mucho más fácil de estimar que las P(a1,a2,…an)
Clasificador Naive Bayes
Algoritmo
Ejemplo
Ejemplo
Ejemplo
PROBABILIDAD Y ESTADÍSTICA
MINERÍA DE DATOS
"Knowledge Discovery in Databases" o KDD
Etapa de análisis exploración de datos. Es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística, probabilidad y sistemas de bases de datos.
El objetivo general es extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

Proceso KDD
Clasificación en KDD
Objetivo
Obtener modelos que discrimine las instancias de entrada en diferentes clases de equivalencia por medio de los valores de diferentes atributos.
Aprendizaje

Entrenamiento
Prueba
Analizar un conjunto de datos para determinar las características de los mismos. (Construir un modelo).
Se basa en un conjunto de datos de entrenamiento y los valores de un atributo de clasificación, y luego utilizar el modelo para clasificar nuevos datos.

Muy similar a la experiencia de aprendizaje humana.
Utilización de la observación para formar un modelo.

Aprendizaje supervisado:
El modelo se forma a partir de datos clasificados correctamente de antemano

Los modelos se
desarrollan en dos fases
Ejemplo
SOFTWARE WEKA
Exposición Lectura
Full transcript