Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Copy of ANÁLISIS DISCRIMINANTE

No description
by

Shanna Vivanco

on 11 July 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Copy of ANÁLISIS DISCRIMINANTE

6. Validación de la función discriminante.
7. Contribución de las variables al modelo
5. Estimación del modelo
Introducción
ANÁLISIS DISCRIMINANTE
4. Comprobación de las hipótesis
Hay múltiples parámetros b que maximizan la raíz característica, por lo que siempre vamos a tener más de una solución.
Integrantes:
Jesús Guillén
Jean Soto

Profesor: Jorge Medina
El análisis discriminante es...
Ejemplos:
Clasificar:
- Restos de un cráneo como homínido o no
- Un paciente con cáncer o no
- Una obra de arte al autor A o B.



Análisis discriminante descriptivo.
Etapas del análisis
discriminante
1. Planteamiento del problema.
2. Selección de variables dependientes e independientes.
3. Selección del tamaño muestral.
4. Comprobación de las hipótesis de partida.
5. Estimación del modelo.
6. Validación de las funciones discriminantes.
7. Contribución de las variables a la capacidad discriminante.
8. Valoración de la capacidad predictiva.
9. Selección de variables.

- Una técnica inferencial.
- Es una técnica típicamente multivariante porque suele usarse en contextos donde tenemos varias variables, pero evidentemente puede aplicarse con pocas variables, incluso con una sola variable, pero no es lo habitual.
Su finalidad básica es preparar esa información, seleccionarla, trabajarla, con una finalidad clasificadora. Futuros individuos, a los que les podremos medir esas variables, deberemos clasificarlos como miembros de alguna de esas poblaciones.
- Es frecuente tener que enfrentarse con la necesidad de identificar las características que permitan diferenciar a dos o más grupos de sujetos.
- Puede ser descriptivo o predictivo.
- ¿Comprará, este cliente nuestro producto, o no?
- ¿Se adaptará, este candidato al puesto de trabajo, o no?
Análisis discriminante predictivo.
- Objetivo.
Valorar de qué depende la fidelidad de un ganadero a una determinada fábrica de balanceado.
- Diseño.
Se encuesta a 30 ganaderos sobre la posibilidad de cambiar de balanceado y sobre la percepción que tienen de su servicio (precio, distribución, etc.).
- Resultado.
El análisis permitirá conocer la importancia relativa del servicio en la fidelidad del cliente.

- Objetivo.
Prever el riesgo de morosidad relativa a los préstamos en una entidad bancaria.
-
Diseño.
En el fichero de clientes morosos y no morosos se observan variables cuantitativas potencialmente explicativas: renta total, edad, créditos adicionales, años de estabilidad laboral,....
- Resultado
. El análisis permitirá anticipar el riesgo de morosidad de nuevos clientes.

Clasificar entre hombres o mujeres, a partir de estas tres variables:
Edad, altura, Pie.
¿Qué variables discriminan mejor?
Etapas del AD
1. Planteamiento del problema
2. Selección de variables
-La variable dependiente debe ser no métrica.

- Los grupos deben ser mutuamente excluyentes.

- Puede ser métrica en origen.
-P.e. Superficie: pequeña, mediana, grande.
3. Selección del tamaño muestral
- n casos divididos en q grupos que constituyen una partición de la población de la que dichos casos proceden (o dos poblaciones).

- Y= (Y 1,...,Yp) es el conjunto de variables numéricas observadas sobre dichos caso

- Los objetivos del análisis discriminante pueden ser:

Ejemplo:
- La Universidad desea establecer las diferencias entre dos razas bovinas.

- Para ello, estudia 8 variables morfológicas en 1000 animales de 30 explotaciones.



En este caso:
- Variables independientes: 8 medidas biométricas.

- Variable dependiente: raza (braford vs aberdeen).

- n = n1+n2; 1000 = 600 braford + 400 aberdeen.

- El fin último es encontrar una regla que permita clasificar adecuadamente nuevos animales.

- Necesita que los grupos sea conocidos a priori.

Elaboración de funciones matemáticas:
Reglas de Clasificación.
- Analizar si existen diferencias entre los grupos respecto a las variables consideradas y averiguar en qué sentido.

- Elaborar procedimientos de clasificación sistemática de individuos de origen desconocido.


- El objetivo es determinar si existen diferencias en ambas razas, y en caso de que existan determinar en qué sentido se dan dichas diferencias.
- La decisión sobre el número de categorías:
- Debe ajustarse al poder discriminante delos predictores.

- Puede observarse en etapas sucesivas y optar sólo por el enfoque de extremos polares.
-P.e.Superficie: pequeña o grande.
-Alta sensibilidad al tamaño de los grupos.
-No es necesario que los grupos tengan el mismo número de casos, aunque es recomendable.
-El más pequeño de los grupos debe tener más casos que variables independientes.
- Alta sensibilidad al tamaño muestral.
- Por lo menos 5 casos por variable independiente.
- Ideal, 20 casos por variable.
Causará problemas en la interpretación.
Si no se cumple hay que usar un modelo de regresión logística.
Si no se cumple hay que usar técnicas de clasificación cuadráticas.
- Normalidad multivariante.
- Homocedasticidad multivariante (matrices de varianzas – covarianzas similares).
- Multicolinealidad.
- La discriminación entre los q grupos se realiza mediante el cálculo de unas funciones matemáticas denominadas funciones discriminantes.

- Existen varios procedimientos para calcularlas siendo el procedimiento de Fisher el más utilizado.

- El procedimiento de Fisher toma como funciones discriminantes, combinaciones lineales de las variables clasificadoras:

- Y (función discriminante): combinación lineal de las variables originales "X" que:
- Presente la mínima variación INTRA grupal.
- Presente la máxima variación ENTRE grupal.

- La función discriminante no será única: se parte de una clasificación en q grupos, se obtendrán varios conjuntos de parámetros, es decir, varias funciones discriminantes (menor de “q-1” o “p”).
Tenemos:
- q grupos: subíndice j ; j=1,2,3,…,q
- p variables: 1,2,3,…,p
- n casos: subíndice i; i=1,2,3,…n

Matriz de observaciones:
Matriz de medias de grupos (grupo = j):
Matriz de medias totales:
Hay que maximizar:
Hay que maximizar SCE y minimizar SCI:
Métodos
- T2 de Hooteling.
- Autovalores (raíces características).
- Ratioautovalor / suma de autovalores.
- Test de Bartlett.
- Correlación canónica.
- Lambda de Wilks.

Autovalores
- La suma de cuadrados entre grupos de cada función discriminante.

- Debe ser alto.

Ratioautovalor /suma de autovalores.

- Indica la capacidad discriminante relativa.
- Toma valores entre 0 y 100.
- Debe ser alto.

Correlación canónica

- Mide en términos relativos el poder discriminante.

- Es el porcentaje de la variación total en dicha función que es explicada por las diferencias entre los grupos.

- Toma valores entre 0 y 1.

- Debe ser próximo a 1.

Lambda de Wilks

- Es un estadístico que mide el poder discriminante de las variables.

- Tiene una distribución lambda de Wilks con p, q-1 y n-q grados de libertad.

- Toma valores entre 0 y 1.

- Debe ser próximo a 0.

Con el programa Statgraphics:
- Hay que encontrar una regla óptima de clasificación con el menor número de variables (principio de parsimonia).

- La regla óptima de clasificación es la que menos errores comete con el mínimo número de variables (valoración de la capacidad predictiva).

¿Cuándo incluir o excluir variables en el modelo?
Cuatro indicadores
- ANOVA simple de cada variable con la variable dependiente.

- Parámetros estandarizados de la función discriminante.

- Cargas discriminantes: correlación de cada variable con la función discriminante.

- Juicio del investigador

-Este es el aspecto clave del análisis discriminante.
-Se desarrolla a priori y determina inicialmente las variables candidatas al modelo.

- Las variables que no se segmenten completamente por la agrupación son candidatas a no entrar en el modelo.

CUIDADO: puede ser que la variable sea determinante en algunos grupos y en otros no.

ANOVA simple
Por ejemplo:

Clasificar el resultado neto de explotaciones (negativo, equilibrio o positivo) en función del precio del balanceado y del precio de la leche.

- Puede ser que el precio de la leche segmente perfectamente entre negativo y no negativo.
-Y el precio del concentrado discrimine equilibrio de positivo.


- Indican el peso relativo y el sentido del efecto de cada variable.

- Interesan pesos absolutos.

Parámetros estandarizados de la función

-Indican la relación lineal entre la variable y la función.

- Interesan correlaciones altas pero no lineales.

Cargas discriminantes
8. Valoración de la función predictiva
9. Algoritmos de selección de variables
Forward (eliminación hacia adelante).


Backward (eliminación hacia atrás) –pocas variables.


Stepwise (método por pasos).

MÉTODOS
- Estimación por resustitución.

- Estimación por valoración cruzada.

Estimación por resustitución
Estimaciones de validación cruzada (Lachenbruch)
• Eliminar el primer vector de observaciones.

• Formular una regla discriminante basada los datos restantes.

• Usar la regla para clasificar la primera observación.

• Observar si la regla clasifica o no en forma correcta.

• Reemplazar la primera observación y eliminar el segundo vector de observaciones.

• Formular una regla discriminante basada en los datos restantes.

• Usar la regla para clasificar la primera observación.

• Observar si la regla clasifica o no en forma correcta.

PASO 3
• Idem hasta el final.

PASO 4
•Crear una tabla igual al método de resustitución.

PASO 1
PASO 2
Con el programa Statgraphics:

- Eligen la variable que más discrimina entre los grupos.

- A continuación seleccionan la segunda más discriminante y así sucesivamente.

- Si de las variables que quedan por elegir ninguna discrimina de forma significativa entre los grupos analizados el algoritmo finaliza.

Selección hacia delante

- El procedimiento es inverso al anterior.

- Comienza suponiendo que todas las variables son necesarias para discriminar y se elimina la menos discriminante entre los grupos analizados y así sucesivamente.

- Si las variables no eliminadas discriminan significativamente entre los grupos analizados el algoritmo finaliza.

- Generalmente selecciona pocas variables.

Selección hacia atrás

- Utilizan una combinación de los dos algoritmos anteriores.

- Incluyen la posibilidad de:






Selección por pasos
- Proporcionar un p-valor de entrada y otro de salida.

- Si el p-valor obtenido al introducir una variable no es inferior al p-valor de entrada, la variable considerada no entra.

- Si el p-valor obtenido al eliminarla del conjunto de discriminación no es superior al de salida, la variable considerada no sale de dicho conjunto.
- Para determinar qué variables entran y salen en cada paso de este tipo de algoritmos se utilizan diversos criterios.

- Lambda de Wilks es el más utilizado.
- Eliminar una variable introducida en el conjunto en un paso anterior.

- Introducir una variable eliminada con anterioridad.
Full transcript