Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Práctica 4

Análisis exploratorio y estimación puntual

ESTADÍSTICA

Introducción

¿Para qué sirve la estadística?

Población

Muestra de tamaño n

¿De dónde obtengo los datos?

¿Con qué tipos de datos puedo trabajar?

Estadística descriptiva

Medidas de resumen

Medidas de Resumen

Topic

Media muestral

Mediana muestral

Medidas de tendencia central

Moda

Media muestral

  • Se utiliza para datos numéricos.
  • Para calcularla se suman todos los valores observados y se divide por el número total de observaciones.
  • Representa un “centro de gravedad” o “punto de equilibrio” de los datos.
  • Es muy sensible a la presencia de datos atípicos o outliers.
  • Es un estimador insesgado de la media poblacional (μ)

1.

X: número de hijos de una varón adulto que fue entrevistado.

X = (0.199 + 1.75 + 2.126 + 3.82 + 4.35 + 5.15 + 6.4 + 7.3 + 8.0 + 9.0 + 10.1) / 540

X = 1,56

  • La mediana es una medida de posición robusta, ya que no depende de la distancia de las observaciones al centro sino solamente del orden de los datos; por lo tanto, no se afecta tanto por la presencia de datos outliers.

  • Cuanto más simétrica sea la distribución de los datos, más parecidos serán los valores de la media y la mediana.

  • La mediana equivale al percentil 50 (P50)

Mediana muestral

¿Cómo se calcula la mediana de una muestra de n observaciones?

Se ordenan los datos de menor a mayor (incluyendo los valores que se repiten). La mediana es el dato que ocupa la posición central en la lista ordenada.

2.

Pueden ocurrir dos casos:

Si el número de datos es impar, la mediana es el dato que ocupa la posición central.

Si el número de datos es par, la mediana es el promedio de los dos datos centrales.

X: número de hijos de una varón adulto que fue entrevistado.

n= 540; la mitad es 270, por lo tanto habría que sumar los números en las posiciones 270 y 271 y dividirlos por dos. En este caso la mediana será 1.

Moda

La moda es el dato que ocurre con mayor frecuencia dentro de un conjunto de datos.

Resulta útil sólo en el caso de datos categóricos, permitiéndonos identificar la categoría con mayor cantidad de datos.

3.

Cuartiles

Los cuartiles (Q) son casos particulares, correspondientes a los percentiles 25, 50, 75 y 100.

Percentiles

Q1 → P25 (cuartil inferior)

Q2 → P50(mediana)

Q3 → P75 (cuartil superior)

Q4 → P100

El percentil p% (P) de un conjunto de datos es la observación que deja a lo sumo un p% de las observaciones debajo de él.

Otras medidas de posición

Por ejemplo: vimos que la mediana es el dato que ocupa la posición central en un conjunto dado y que coincide con el percentil 50 (P50); es decir que la mediana es la observación que deja a un 50% de los datos por debajo de él.

Medidas de dispersión

Desvío estandar

y varianza muestral

Coeficiente de

variación (CV)

Rango muestral

Rango intercuartil (RIC)

Definición

Fórmula de cálculo

La varianza muestral puede pensarse como un “promedio” de las distancias de los datos respecto de la media elevadas al cuadrado (para evitar que las distancias negativas y positivas se anulen entre sí).

Sin embargo, la varianza no tiene las mismas unidades que los datos (porque están elevadas al cuadrado).

Para salvar este inconveniente, se define la desviación estándar muestral como la raíz cuadrada de la varianza.

Coeficiente de variación (CV)

  • Permite evaluar el impacto del desvío en relación con el valor de la media.
  • Suele utilizarse para evaluar la precisión de los métodos (no tiene unidades por lo que nos permite comparar la dispersión entre métodos que miden distintas cosas).

Rango muestral

El rango de una muestra de n observaciones (x1, x2, … , xn) es la diferencia entre la observación más grande o máximo (Xmáx) y la observación más pequeña o mínimo (Xmín).

Rango = Xmáx - Xmín

Rango intercuartil (RIC)

Es la distancia entre Q1 y Q3 e indica el rango donde se encuentra aproximadamente el 50% “central” de los datos.

RIC= Q3 - Q1

Tablas de frecuencias

Tablas

Tablas de contingencia

Tablas de frecuencias

En el caso de los datos categóricos, se puede caracterizar la proporción de cada atributo por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis que caen en cada una de las clases de la variable cualitativa, pudiendo representarse la frecuencia absoluta, la frecuencia relativa o el porcentaje de cada categoría.

Tablas de contingencia

Permiten construir tablas de clasificación cruzada según diversos criterios de clasificación.

Gráficos

Gráfico de sectores

Gráfico de barras

Histograma

En el eje horizontal se representan los valores de la variable numérica y en el eje vertical una medida de frecuencia (frecuencia absoluta, relativa o relativa porcentual). Cada “clase” está asociada a una columna cuya base cubre el intervalo de la clase y cuya altura indica cuántos datos pertenecen a ella a través de la frecuencia. No existe un espacio entre las columnas de cada clase a menos que una clase esté vacía.

¿Cuántas clases deberíamos utilizar?

Existen distintas reglas para determinar un número apropiado de clases para un conjunto de datos. Por ejemplo:

Regla de Sturges → Nº de clases = 1 + 3,3. log (n)

Diagrama de densidad de puntos

Permite observar dónde se encuentran efectivamente los casos observados y es especialmente útil cuando la cantidad de datos es pequeña.

Diagrama de cajas (Box-Plot)

Diagrama de dispersión

Muestra un conjunto de puntos ordenados en el plano por sus coordenadas X e Y.

Se utiliza cuando se quiere visualizar la variación conjunta de dos variables cuantitativas.

Estimación puntual

ESTIMACIÓN PUNTUAL

Introducción

La distribución de cada variable aleatoria tiene parámetros que la caracterizan (por ejemplo, en el caso de una v.a. binomial los parámetros son m y p, en el caso de una v.a. Poisson hay un único parámetro y en caso de una v.a. normal los parámetros son μ y ).

Estos parámetros son generalmente desconocidos dado que son poblacionales y la población es usualmente inaccesible, como mencionamos previamente. Pero podemos estimar estos parámetros a través de estimadores obtenidos a partir de una muestra.

Estimadores insesgados

Llamamos “estimador insesgado” a aquel que, al calcularle su esperanza nos da como resultado el parámetro que se desea estimar.

Ejemplos

VA con distribución Binomial

VA con distribución Poisson

VA con distribución Normal

Ahora que aprendimos sobre estadística descriptiva

¿Qué podemos decir de esta imagen?

Learn more about creating dynamic, engaging presentations with Prezi