Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Árboles de Decisión

No description
by

Sergio Morales Villarroel

on 20 November 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Árboles de Decisión

Business Intelligence
Inteligencia de Negocios
Herramientas
de Business Intelligence
Árboles
de decisión
C&RT
Clasificación
Classification and Regression Tree
Consiste en un algoritmo que genera un árbol binario de decisión realizando particiones en grupos de datos y generando subconjuntos precisos y homogéneos.

Divide el conjunto de datos en segmentos para que sean lo más homogéneos posible respecto a la variable dependiente.
QUEST

Quick Unbiased Efficient Statistical Test
Consiste en un algoritmo estadístico que selecciona variables sin sesgo y crea árboles binarios precisos de forma rápida y eficaz. Este algoritmo sólo se puede implementar para variables nominales.
CHAID
Chi-Square Automatic Interaction Detector
Es un algoritmo que tiene como objetivo predecir, estimar, clasificar o caracterizar el comportamiento de algunas variables objetivo previamente identificadas. El algoritmo CHAID fue desarrollado por KASS en 1980 y recibió aportes de MADIGSON en 1992.

A partir de este algoritmo se construyen los clusters de los árboles de decisión que posteriormente serán utilizados para hacer Data Mining.

También existe el CHAID Exhaustivo.
Árboles de Decisión
implementados en Inteligencia de Negocios
“La habilidad de las empresas para diferenciarse de las demás y competir con ellas, se basa en su capacidad de diferenciarse a la hora de manejar los flujos de información, de utilizarlos para atesorar conocimientos y de aplicarlos para desarrollar nuevas oportunidades de negocio. No solamente es disponer de la información sobre el entorno sino hacerlo antes que los competidores ya que en este hecho radica la fuente de la ventaja competitiva."

(Sweeney, Information & Corporate Growth, 1989).

La Inteligencia de Negocios es una metodología y un conjunto de procesos que usan la tecnología como medio para implementar cambios.

Utiliza varias técnicas de generación y organización de la información para que sea útil en la toma de decisiones.

Finalmente, consolida la información analizándola con la velocidad y precisión requeridas para tomar mejores decisiones de negocio.
“La Inteligencia de Negocios es la capacidad de tomar decisiones tomando como fundamento la información obtenida de la experiencia, tanto interna como con el entorno, en busca del máximo desempeño; obteniendo los resultados más beneficiosos para la empresa”
Richard Miller Devens (1865)
“Se está desarrollando un sistema automático para distribuir información a varios sectores de cualquier organización industrial, científica o gubernamental. Este sistema inteligente será utilizado por máquinas que procesan datos para la auto-abstracción y la auto-codificación de documentos y para la creación de perfiles interesantes para cada punto de acción dentro de una organización.”
Hans Peter Luhn (1958)
“La Inteligencia de Negocios es un conjunto de conceptos y métodos para mejorar la toma de decisiones empresariales utilizando sistemas de soporte basados en hechos”
Howard Dresner (1989)
“La Inteligencia de Negocios es un conjunto de técnicas, modelos y herramientas computacionales que permitirán la transformación de datos en información pertinente y significativa que posteriormente se tomará como base para la toma de decisiones de administradores y gerentes respecto de las diferentes áreas en las que trabaja una empresa”
Solomon Negash
El BI en sus diferentes etapas utiliza diferentes herramientas y técnicas que en conjunto tienen como objetivo entregar información clara y concisa a la Alta Direccion para apoyarlos en la toma de decisiones.

Entre las técnicas para la minería de datos podemos mencionar:

Redes Neuronales
Redes Bayesianas
Árboles de Decisión

Un árbol es un grafo acíclico, conexo y no direccionado. Cada elemento puede estar conectado con ningún , uno, dos o más elementos. A esta conexión entre dos nodos se denomina rama. El elemento que no tiene predecesor o padre se denomina
nodo raíz.

Los árboles de decisión son árboles k-arios que están diseñados para la consulta. Cuando se habla de árboles de decisión, las denominaciones de los nodos cambian.

Sea
k
la cantidad de hijos de un nodo, entonces, si:
k=0
Nodo decisión o terminal
k<>0
Nodo de prueba o interno
Para la clasificación del universo de datos en clusters utiliza la distancia chi-cuadrado que busca interacciones significativas entre una variable dependiente y muchas variables consideradas predictores.

Al momento de diseñar el árbol, la función chi-cuadrado también permite que cada subárbol tenga aproximadamente la misma altura que los demás subárboles cuyo nodo padre es el mismo.
Procesos sobre
el árbol de decisión
La probabilidad nos permite conocer precisamente las tendencias dentro de una empresa ya que maneja porcentajes calculados de los datos obtenidos de la experiencia de dicha empresa.

Debido a esta precisión, la Inteligencia de Negocios utiliza diferentes algoritmos estadísticos y probabilísticos para la creación de clusters.
DISTANCIA
La distancia chi-cuadrado es la distancia que mide el grado de interacción entre dos variables cualitativas. La primera es una tabla de contingencia observada (obtenida de la experiencia) y la segunda es una tabla de contingencia construida en condición de independencia (interacción nula).La distancia chi-cuadrado se calcula de la siguiente forma:







donde
nij
son las frecuencias de la primera tabla .
npij
son las frecuencias esperadas (de la segunda tabla).
n
es el tamaño del universo de la primera variable cualitativa.
m
es el tamaño del universo de la segunda variable cualitativa.

Chi-Cuadrado
Determinar la variable a explicar y las variables predictores.

Se realizan tablas donde se hace un análisis entre las variables predictores (independientes) y cada una de las variables dependientes. En cada una de las tablas, se hace un cálculo de chi-cuadrado.

Se unen todos los pares de valores menos significativos estadísticamente en un solo cluster.

Se obtiene el p-value. La variable que tenga el valor más bajo se utiliza para dividir en grupos más pequeños que pasarán por el mismo proceso.

El proceso se repite hasta que se consideren grupos demasiado reducidos. Es pertinente recordar que el algoritmo considerará el tamaño de los grupos según la precisión que el usuario defina al momento de iniciar el proceso de creación de clusters.

Termina distinguiendo tres tipos de variables: libres, monótonas y flotantes.
Pasos
CHAID
INTERPRETACIÓN
¿Por qué BI y árboles de Decisión?
Según Raúl Benet, Adysa BI Manager, los sistemas de BI proporcionan una total visibilidad de los datos corporativos, así como un acceso ubicuo a los mismos.

Si bien representa una gran inversión, BI permite a las empresas tener a la mano herramientas que faciliten el estudio de sus clientes como de la competencia permitiéndoles posteriormente posicionarse en el mercado.

Para facilitar el estudio del mercado, los árboles de decisión clasifican la información obtenida de la experiencia de una forma objetiva y concreta. De esta forma, en conjunto con las demás herramientas del BI, se podrán tomar decisiones correctas a mediano y largo plazo.
Gracias
Full transcript