Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

ECS. Estadística Descriptiva. Medidas estadísitcas.

No description
by

Juan Pablo Góngora Pérez

on 12 March 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of ECS. Estadística Descriptiva. Medidas estadísitcas.

Estadística
Descriptiva.

Medidas de tendencia central
Medidas de dispersión
Medidas de forma
Sesgo o
Asimetría

Apuntalamiento o Curtosis
Media o Promedio
Moda
Mediana
Rango
Varianza
Desviación
estándar

Medidas estadísticas
Características de los datos:
Estadística Descriptiva

Técnicas necesarias para llevar a cabo la fase descriptiva del análisis
Representación gráfica, tabulación, agrupación...
obtención de las propiedades elementales del conjunto de datos que se estudia

Inferencia Estadística

Técnicas necesarias para llevar a cabo la fase de análisis
Estimadores, intervalos de confianza, contrastes de hipótesis y previsión
Mediana (m): valor que deja el 50% de datos por encima y por debajo al ordenar la serie creciente o de crecientemente

Moda: valor más frecuente de la muestra
Puede no ser única
No existe si los datos no se repiten
Informa de la posición central de la variable.
Es el valor representativa de un grupo de elementos

Muestra =

Población = µ
Es un valor que se encuentra en el centro o a la mitad de un conjunto de datos

Valores extremos: Valores que están muy alejados de la mayoría de los demás valores de la muestra.
Variación/Dispersión: Medida de la cantidad en que los valores de los datos varían entre sí.
Distribución: La naturaleza o forma de la distribución de los datos (campana, uniforme o sesgada)

Centro: Valores representativos del conjunto de datos
6
12
7
8
8
9
11
Media
Mediana
Moda
13
9
10
Poca dispersión
Mayor dispersión
Menor distancia entre los datos
Mayor distancia entre los datos
¿como es la forma del histograma?
¿"Chato", "Picudo", Cargado a un lado, con
muchos datos al centro o a los extremos?
El histograma será un apoyo importante porque nos dará una idea de las tres medidas ya que esta gráfica muestra como se distribuyen los datos

Tiempo: Características cambiantes de los datos a través del tiempo.
Medidas de tendencia central

Cuando describimos, exploramos y comparamos conjuntos de datos es sumamente importante la característica del CENTRO de los datos ya que buscamos obtener un número que represente el valor central del conjunto de datos
Medidas de
posición y Análisis exploratorio de datos

Valor más frecuente de la muestra
 Puede no ser única
 No existe si los datos no se repiten
Ejemplos:
a) El promedio de horas de estudio de los alumnos de Licenciatura es de 7.28 horas a la semana
b) En promedio un cliente compra 1.8 artículos en la tienda por visita
c) La media de gasto de un cliente a la tienda es de 220 pesos por visita
Ejemplos:
a) Moda de horas de estudio: no existe
b) Moda de artículos comprados por visita 2 (se repite 254 veces)
c) Moda de gasto por cliente es 0 (es el valor que más se repite con 65)
Valor que deja el 50% de datos por encima y por debajo al ordenar la serie creciente o de crecientemente
Ejemplos:
a) Moda de horas de estudio 7.29: el 50% de los alumnos estudian menos de 7.29 horas y el 50% más de 7.29 horas
b) El 50% de los clientes compra más de 2 artículos por visita (mediana igual a 2)
c) La mitad de los clientes que visita la tienda gasta menos de $193
a) Horas de estudio
b) Artículos comprados
Promedio: 7.28
Moda: n/a
Mediana: 7.29
Promedio: 1.8
Moda: 2
Mediana: 2
Promedio: 207
Moda: 0
Mediana: 193
Desviación estándar:

Se prefiere a la varianza pues está medida en las mismas unidades que la variable. Se obtiene al sacar la raíz cuadrada al varo de la varianza
Medidas de dispersión

Rango

Varianza

Desviación estándar
Además de las medidas de tendencia central suele ser útil considerar las medidas de variabilidad o dispersión.

Imagine los siguientes datos del tiempo en que dos proveedores tardan en surtir una orden (AMBOS PROMEDIOS SON IGUAL A 10.3 DÍAS):
Varianza:
Es el momento respecto de la media de orden 2 (PROMEDIO DE LAS DESVIACIONES AL CUADRADO)
Informa de la dispersión de la variable alrededor de su media
Se utiliza la cuasivarianza cuando se trata de una muestra:
¿Que proveedor preferiría?
Rango:
R = Máximo - Mínimo
Medida de variabilidad más fácil de calcular pero rara vez se utiliza ya que los valores extremos tiene una gran influencia y puede ser que la medida del rango no sea descriptiva de la verdadera variabilidad de los datos
Rango P1 = 15 - 7 = 8
Rango P2 = 11 -9 = 2
Prov. 1 Puede tardar entre 15 y 7 días en surtir, un rango de 8 días. Mientras que el Prov. 2 tarda entre 11 y 9 días, un rango de 2 días.
El problema es que es díficil de interpretar debido a que las desviaciones (las diferencias de cada dato menos el promedio) están al cuadrado
Varianza Prov 1: 6.07
Varianza Prov. 2: 0.41
Prov 1 tiene mayor variabilidad en sus tiempos de entrega
Desviación estándar Prov 1: 2.46 días
Desviación estándar Prov. 2: 0.64 días
Prov 1 tiene mayor variabilidad en sus tiempos de entrega
La ventaja es que en este caso el resultado es interpretable respecto a la misma medida que los datos:
El prov 1 tiene una dispersión promedio de 2.46 días, y el prov 2 de 0.64 días

Coeficiente de variación:

Permite interpretar la desviación típica como un porcentaje de la media
Es útil cuando comparas dos variables con escala de medición diferente o cuando no existe diferencia en la desviación estándar pero si en el promedio.
Por ejemplo, si los datos de los proveedores fueran:
Prov 1:
Promedio de días = 10
Ds = 2
Prov 2:
Promedio de días = 20
Ds = 2
¿Si las Ds son iguales entonces cual proveedor tiene mayor variabilidad en los días de cumplimiento?
Coeficiente de Variación de Prov 1:
Cv1 = 2 / 10 = 0.2
Cv 1 = 20%
Coeficiente de Variación de Prov 2:
Cv2 = 2 / 20 = 0.10
Cv 2 = 10%
La variabilidad del Prov 1 es mayor ya que en
promedio puede estar arriba o abajo en 20% de la media de días, mientras que el Prov 2 este porcentaje es de 10%
Aunque las Ds son iguales, al compararlas con sus promedios, el variabilidad del Prov 1 es el doble que la del Prov 2.
Comparando dos escalas diferentes:
¿Que variable tiene mayor dispersión?
¿Los artículos comprados por visita o el gasto realizado?
Cv = 1.022 / 1.8 = 0.56
Cv = 56%
Cv = 155.7 / 206.5
Cv = 0.75
Cv = 75%
La variabilidad del gasto
es del 75% en relación al
promedio de gasto por cliente.
Mientras que la variabilidad de
artículos comparados es del 56%
Diagrama de Caja y Brazo

Calcular los 5 estadísticos siguientes: Mínimo, Máximo, Q1, Mediana, Q3 y Máximo
Construya una escala con valores que incluyan el valor mínimo y el máximo
Construya un cuadro (o rectángulo) que se extienda desde Q1 hasta Q3 y dibuje una línea en la caja en el valor de la mediana
Dibuje las líneas que se extiendan hacia afuera del cuadro hasta los valores mínimo y máximo.

Con los datos ordenados de menor a mayor:

Cuartiles (Qn): 3 números que dejan por debajo el 25%, 50% y 75% de los datos respectivamente

Deciles (Dn): 9 números que dejan por debajo el 10%, 20%, ...,90% de los datos respectivamente

Percentiles (Pn): 99 números que dejan por debajo 1%, 2%, ..., 99% de los datos respectivamente
Si L no es un número entero se redondea al entero mas grande
L =(k*n) / 100

k = Percentil buscado
n = Cantidad de datos
L = Localizador de posición
Ejemplo, encontrar el Cuartil 3 para 76 datos

L =75×76/100=57

Ordenando de menor a mayor el Q3 será el dato número 57
Corte de la distribución
K > 0.26 → Leptocurtico

K = 0.26 → Mesocurtico

K < 0.26 → Platicurtico
Cálculo del Coeficiente de Curtosis (K):
Método gráfico (a través del histograma o curva de frecuencias).
Por el Coeficiente de Curtosis.
Es el grado de apuntamiento o corte de una distribución. El grado de corte de una distribución puede ser: leptocúrtica (si la curva tiene un apuntamiento relativo alto) platicúrtica (si la curva es achatada) y mesocúrtica (ni muy puntiaguda ni achatada).
Para calcular la curtosis de una distribución existen dos métodos.
Curtosis (K)
Método gráfico (a través del histograma o curva de frecuencias).
Por la relación entre la media, mediana y moda.
Por el Coeficiente de sesgo de Pearson.
El sesgo es el grado de asimetría, o falta de asimetría, de una curva de distribución de frecuencia.
Para calcular el sesgo de una distribución existen tres métodos.
a. Sesgo (CP)
Sesgo

Curtosis
Son medidas que permiten detectar la forma de una distribución utilizando medidas de centralización, dispersión y de posición.
Cálculo del Coeficiente de sesgo de Person (CP):
CP < 0 → Asimétrica negativa

CP = 0 → Simétrica

CP > 0 → Asimétrica positiva
Simétrica: CP =0
Asimetría negativa: CP < 0
A la izquierda del promedio
Asimetría Positiva CP > 0
A la derecha del promedio
Leptocurtico
Platicurtico
Mesocurtica o normal
Adicionalmente, el uso del Cuartil 3 y 1 nos ayuda a
identificar los valores extremos calculando el Rango Intercuartilico

RI = Q3 - Q1
RI = Rango intercuartilico
Q3 = Cuartil 3
Q1 = Cuartil 1
Se considera un dato atípico leve si:

Es mayor a Q3 + (1.5 x RI)
Es menor a Q1 - (1.5 x RI)
Se considera un dato atípico extremo si:

Es mayor a Q3 + (3 x RI)
Es menor a Q1 - (3 x RI)
Etapas del AED
Preparar los datos
para hacerlos accesibles a cualquier técnica estadística.
Proceso que utiliza las herramientas estadísticas básicas (como gráficas, medidas de tendencia central y medidas de variación), con el fin de

examinar los datos previamente a la aplicación de cualquier técnica de inferencia estadística.
Análisis exploratorio de datos (AED)

Consecuencias de tener datos distantes:
Datos distantes (Valores extremos)
El AED proporciona métodos sencillos para:

Organizar y preparar los datos,
Detectar fallas en el diseño y recogida de datos,
Tratamiento y evaluación de datos ausentes,
Identificar casos atípicos y
Comprobar los supuestos subyacentes en la mayor parte de las técnicas multivariantes

Evaluar, si fuera necesario,
el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
Realizar un
examen gráfico
de la naturaleza de las variables individuales a analizar
Realizar
análisis descriptivo numérico
que permita cuantificar algunos aspectos gráficos de los datos.
Identificar los posibles casos atípicos
(outliers o valores extremos) y
evaluar el impacto
potencial que puedan ejercer en análisis estadísticos posteriores.
Pueden tener un efecto importante en la media.
Puede tener un efecto importante sobre la desviación estándar.
Puede tener un efecto importante sobre la escala del histograma, de modo que la verdadera naturaleza de la distribución se oculta totalmente.
Full transcript