Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Análisis de Regresión Múltiple

No description
by

Antonio Arevalo

on 17 September 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Análisis de Regresión Múltiple

Análisis de Regresión Múltiple
Stepwise múltiple regresión?
Análisis de Regresión Múltiple
Método que permite la evaluación de los efectos de mas de una variable independiente sobre una variable dependiente. Este método permite resolver dos problemas.
Asunciones de la regresión múltiple
Linearidad.
Homocedasticidad.
Nivel de medición de intervalo
Ausencia de outliers
Datos no truncados
Correcta especificación del modelo.


Alternativas a Ordinary last squares
Cox Regresión
Regresiones curvilineales
Análisis discriminantes
Regresiones logisticas
Modelo lineal general
Modelos mixtos lineales
Regresión logit
Regresión multinomial
Regresion no linear
Regresión ordinal
Poisson regresión
Weightes last squares
Garson, D. Statistical Associated Publishing
El efecto del coeficiente de regresión
Es el efecto (medido por el coeficiente de regresión) sobre la variable dependiente de una unidad de cambio en la variable independiente, mientras este afectado por el resto de las variables independientes.
El efecto del coeficiente de regresión al cuadrado (R2)
Es el efecto total medido por R2 (el coeficiente de regresión al cuadrado) sobre la variable dependiente de todas las variables independientes tomadas juntas.
El Peso de Beta (Beta Weights).
Es un coeficiente de regresión estandarizado. El peso de Beta habilita al investigador a comparar el tamaño de la influencia de las variables independientes medidas usando diferentes métricas o mediciones de escala también llamadas regresion weights o Peso de Beta.
Coeficiente de Regresión
Es un numero que indica el valor de la asociación de la variable dependiente con los valores de la o las variables independientes. Un coeficiente de regresión es parte de una ecuación de regresión. Un coeficiente de regresión estandarizada se simboliza por la letra griega Beta y un coeficiente de regresión no estandarizado en cambio se simboliza con la letra b.
En una regresión al coeficiente se le llama regresión simple. En una regresión múltiple se distingue entre coeficiente de regresión parcial y coeficiente de regresión múltiple.
Un ejemplo
Si nosotros estudiáramos la relación entre la educación (variable independiente) y el ingreso anual (variable dependiente) y nosotros encontráramos que cada año de educación -mas allá del 10 grado- la expectativa anual de ingresos fue de $1200 dolares, el coeficiente de regresión no estandarizado seria de $1200.
La Ecuación de Regresión
Una ecuación algebraica expresa la relación entre dos o mas variables. Usualmente se escribe así: Y=a+bX+e
En donde
Y
es la variable dependiente, X es la variable independiente, b es el
slope
o coeficiente de regresion,
a
es el intercept y la
e
es el error.
Si eliminas la e entonces estaríamos hablando de la ecuación de predicción.

Un ejemplo
Estudiando la relación entre ingreso y expectativas de vida podríamos encontrar lo siguiente: Las personas sin ingresos tienen una expectativa de vida de 60 años, y cada $10000 dolares adicionales en el ingreso arriba de 100,000 dolares agrega dos años al promedio de esperanza de vida, de modo que las personas con ingresos de 100,000 o mas tienen una esperanza de vida de 80 años. Siguiendo la ecuación de regresión, la esperanza de vida es de 60 años, mas 2 veces el numero de 10,000 por unidades de ingreso. La ecuación diría entonces: Y= 60 + 2X, donde Y es la expectativa de vida predicha, X es igual a 10,000 unidades y el intercept es de 60.
Vogt, P. Dictionary of Statistics & Mathodology
SPSS
Analyze / Regresión / Linear / selecciona tus variables independientes y la dependiente/ Statistics / Selecciona opciones de salida y OK.
Variables en Análisis de Regresión
Variable dependiente
Es la variable predicha en la ecuación de regresión. Se asume que es de tipo de variable continua o de intervalo, aunque hay tipos de análisis de regresión linear que trabajan con variables binarias u ordinales (en estos casos se recomienda regresión logística y regresión ordinal). Sin embargo en estos últimos dos casos la asunción de normalidad no es alcanzada y por tanto se prefiere siempre variables continuas para el análisis de regresión.
Variables independientes
En la ecuación de regresión las variables independientes son la variable predictor. Se asume que estas variables serán de tipo continuo o intervalo, aunque es relativamente común ver tipos binarios y ordinales aquí.
Variables Dummy
Las variables dummy son una forma de agregar variables nominales u ordinales a una ecuación de regresión. El enfoque estándar para modelar variables categóricas en la ecuación de regresión es incluir estas variables en variables por si mismas usualmente codificadas con un cero o un uno.
Valores predichos
Son también llamados valores ajustados. Son los valores de cada caso basados en el uso de la ecuación de regresión para todos los casos en el analisis.
Valores predichos ajustados
En las cajas de dialogo de SPSS se usa el termino PRED para hablar de los valores predichos y ZPRED para referirse a los valores predichos estandarizados.
Residuales
Son la diferencia entre los valores observados y los valores predichos de la variable dependiente. Los residuales son el error. El análisis de residuales es critico para diagnosticar problemas en el modelo.
Datos centrados
Se refiere a la sustracción de datos de todas las observaciones haciendo un nuevo punto igual a la media.
Eventualmente podríamos centrar los datos en derredor de la mediana. El centrado de los datos es una característica de los valores estandarizados y es una opción para atender problemas de multicolinearidad.
Significancia
Las pruebas de significancia en los modelos de regresión
El t - test es usado para evaluar la significancia de un coeficiente b individual probando específicamente la hipótesis nula en la cual el coeficiente de regresión es cero. La recomendación es eliminar las variables que no son significativas al 0.05 de una por una.
Limites de confianza y errores estándar
Intervalos de confianza y predicción de intervalos.
En regresión los limites de confianza se refieren a las fronteras inferiores y superiores para la estimación del coeficiente b.

El intervalo de confianza del coeficiente de regresión
. El intervalo de confianza esta basado en el t test y es el rango maso o menos alrededor de el coeficiente de regresión muestral observado dentro del cual nosotros podemos decir que tenemos un 95 % de confianza en la certeza de ese coeficiente de regresión para esa población. Estos limites son relevantes solo si la muestra fue aleatoria y si uno los limites es diferente de cero.
La tabla de ANOVA
En SPSS el F test aparece en la tabla de ANOVA. La tabla que se muestra analiza el mas alto año de educación predicho desde las variables de ingreso familiar y edad. En SPSS seleccione Analize, Regresion, Linear, Statistics, y asegúrese de dar click en Ajuste de modelo para poder obtener la Tabla de ANOVA y el F test. Aquí el modelo va a ser significativos al nivel de .000
F test
El F test es usado para probar la significancia de R, el cual es el mismo para probar la significancia de R2. Si la significancia de F es < .05 entonces el modelo se considera significativamente mejor que si fuese esperado por azar y rechazaríamos la hipótesis nula de no relaciones lineales.
Medición del tamaño del Efecto en Multiple Regresión (Beta weights).
Beta weights son coeficientes de regresión b para datos estandarizados. Beta es la cantidad promedio de incremento en la dependiente cuando la independiente se incrementa en una desviación estándar, mientras que las otras variables independientes se mantienen constantes.
Significancia de Beta
La significancia de Beta weight es idéntica a la que le corresponde al coeficiente b.
Beta Weight puede obtener valores mayores de 1.0. esto puede ser indicativo de multicolinearidad.
Correlación (r2)
El r2 de Pearson es el porcentaje de la varianza en la dependiente explicada por la independiente cuando a todas las otras independientes se les permite variar. El resultado es que la magnitud de r2 refleja no solo la única covarianza compartida por la dependiente sino los efectos no controlados atribuibles a la covariacion de la independiente con otras independientes del modelo. Una regla del dedo establece que la colinearidad puede ser un problema si la correlación es mayor a .90 o a .70 en la matriz de correlación de las variables independientes.
R al cuadrado
R2 es también llamado correlación múltiple o coeficiente de determinación múltiple y es el porcentaje de la varianza en la dependiente explicada única o conjuntamente por las independientes. En una segunda interpretación R cuadrada también puede ser interpretada como una reducción proporcional en el error en la estimación de la independiente cuando conocemos las independientes.
Durbin-Watson
Es una prueba para evaluar si las asunciones de observaciones independientes son encontradas, lo cual equivale a evaluar si la autocorrelacion esta presente.
Como regla del dedo el estadigrafo Durbin-Watson si esta en el rango de 1.5 a 2.5 eso significa que el entrevistador puede rechazar la noción de que los datos estan autocorrelacionados, y en su lugar s epuede asumir independencia de las observaciones.

2001
2007
2013
Para examinar eterocedasticidad
Análisis de residuales
Se usa para tres propositos:
Análisis de residuales
Son la diferencia entre los valores observados y aquellos predichos desde la ecuación de regresión. Los residuales entonces representan el error, como sucede en la mayoría de los procedimientos estadísticos. El análisis de residuales es usado para tres propósitos:
Para analizar heterocedasticidad.
Para apuntar outliers.
Para identificar otros patrones de error.
Análisis de residuales
Residuales no estandarizados
Los residuales no estandarizados están referenciados como RESID en SPSS, y en el contexto de la regresión se refieren a la diferencia linear entre la localización de una observación y la linea de regresión en un espacio multidimensional.
Residuales estandarizados
Son los residuales después de que ellos han sido constreñidos a una media de cero y a una desviación estándar de 1. La regla del dedo dice que los
outliers
son puntos cuyos residuales estandarizados son mas grandes que 3.3 (Corresponden al 0.001 nivel ALFA).
Borrando residuales
Los residuales borrados procesan la desviación estándar omitiendo las observaciones anteriores a la estandarización o estudentizacion de los residuales. EL borrado no aplica para los residuales no estandarizados, por lo tanto los residuales borrados son actualmente residuales borrados estandarizados. En ellos se focaliza el análisis de residuales.
Residuales studentizados
Son residuales que tienen una desviación estándar de 1 pero que no están constreñidos a una media de cero. Cuando
t
excede el valor critico de un nivel alfa dado (.05) entonces el caso se considera un outlier.
Ouliers
SPSS soporta cinco mediciones de influencia de caso: DfBeta, Standarized DfBeta, DfFit, Standarized DfFit y la proporcion de covarianza.
y tres mediciones de distancia:
Mahalanobish distance
Cook´s D
Leverage

Obteniendo Residuales y Outliers
Outliers
Gráficos de regresión parcial
Son usados para evaluar outliers y linealidad. Es un scatterplot de los residuales de una variable independiente sobre el eje de las x contra los residuales d ela variable dependiente sobre el eje de las y.
Multicolinearidad
Tolerancia
Factor de inflación de la varianza (VIF).
VIF es el reciproco de la Tolerancia. Por lo tanto cuando VIF es alto hay alta multicolinearidad y hay inestabilidad en los coeficientes b y Beta. Como regla del dedo cuando VIF es mas grande de 4.0 , se indica problema de multicolinearidad.
Tabla de diagnostico
Los productos cruzados de las variables independientes son factorizados. Altos eigenvalues indican alta varianza en la matriz de productos cruzados. Eigenvalues cercanos a 0 indican poca varianza. Muchos eigenvalues cercanos a 0 indican una matriz de productos cruzados enfermiza. Lo cual significa que hay un problema de multicolinearidad.
Indices Condicionados
Se usa para señalar excesiva colinearidad en los datos. Un índice condicionado de mas de 30 sugiere problemas serios de colinearidad, mientras que arribe de 15 indicara posibles problemas de colinearidad. Cuando existen altos condicionamientos de indices el investigador debera examinar las proporciones de varianza en la tabla de diagnostico de colinearidad.
Proporciones de varianza
Es la excesiva intercorrelacion de variables independientes. La correlación cercana a 1.0 viola la asunción de colinearidad no perfecta, mientras que las altas correlaciones incrementan el error estándar del coeficiente Beta y hace que la evaluación del rol único de cada variable independiente sea mas difícil, cuando no imposible.
Cuando el coeficiente b tiene muy altos errores estándar este es un indicador de multicolinearidad. La correlacion bivariada mayor de <.90 indica un problema de multicolinearidad.

Es igual a 1 - R2 para la regresión de una variable independiente dada sobre todas las otras independientes. Entre mas alta sea la intercorrelacion de las variables independientes la tolerancia se aproximara mas a cero. Como regla del dedo si la tolerancia es de menos de .20 eso significa que existe un problema de multicolinearidad.
Si una dimensión o factor tiene un alto índice condicionado las proporciones de varianza deberán ser examinadas. Si dos o mas variables, en las columnas, tienen una proporción de varianza de .50 o mayor sobre un factor con un alto índice de condicionamiento, entonces esas variables tienen alta dependencia linear y la multicolinearidad es un problema. El efecto sera que pequeños cambios en los datos o errores aritméticos se traducirán en grandes cambios o errores en el análisis de regresión.
Full transcript