Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Estadística descriptiva

No description
by

Victor Haro

on 8 September 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Estadística descriptiva

Victor Hugo Haro
Estadística Descriptiva
Definiciones básicas
Manejo de datos
La tabulación de los datos se refiere a la forma en que se acomodan los datos obtenidos.

Siempre se buscará que su acomodo obedezca a reglas claras, y a un orden riguroso, lo que permitirá al investigador observar con mayor facilidad la distribución general de los datos.
Tabulación
de datos
Funciona para hacer un análisis exploratorio de los datos.
Muy útil para presentaciones a personas que no conocen a fondo la terminología estadística.
Hay una gran variedad de herramientas gráficas.

Representación
Gráfica
Medidas de
tendencia central
Una de las propiedades de la distribución de datos es su tendencia a acumularse hacia el centro de la misma. Esta característica se denomina tendencia central.
Una medida de tendencia central nos indica alrededor de qué valor se acumulan los datos.
Existen distintos estadísticos que nos ayudan a medir dicha tendencia.
Aun cuando los datos tengan cierta tendencia central, al tratarse de datos aleatorios, estos se distribuirán de distintas maneras alrededor de su media.

Se llaman medidas de dispersión a aquellas que permiten retratar la distancia de los valores de los datos a un cierto valor central.
Medidas de
dispersión
Se les llama medidas de posición a los estadísticos que nos dan información sobre la distribución de los datos.

Cuantiles o percentiles
Cuartiles
Deciles
Medidas de
posición
Es aquel que bajo el mismo conjunto de condiciones iniciales puede presentar resultados diferentes.
No se puede predecir el resultado de cada experimento en particular.
Fenómeno
Aleatorio
Rama de las matemáticas que mide la incertidumbre. Mide la frecuencia con la que ocurre un resultado en un experimento bajo condiciones suficientemente estables.
Probabilidad
El arte de aprender de los datos.

Rama de las matemáticas que estudia la recolección, análisis e interpretación de datos con la finalidad de explicar condiciones regulares o irregulares de algún fenómeno de ocurrencia aleatoria.
Estadística
Se encarga de recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente las características de este conjunto.

Se trata de un análisis muy básico.
Estadística Descriptiva
Un valor que cambia.

Una característica que puede ser medida.
Variable
Valor numérico que resume los datos de una muestra.
Estadístico
Estadística Inferencial
Variables Categóricas
Cualitativas
Variables Numéricas
Cuantitativas
Datos Agrupados
Datos Sin Agrupar
Tablas de
Frecuencias
Histograma
Polígono de frecuencias
Ojiva
Diagrama Circular o de Pastel
Diagrama de Caja
Gráfica de
Serie de Tiempo
Dispersión de Datos
Media Aritmética
Moda
Mediana
Rango
Varianza
Desviación
Estándar
Desviación
Media
Se encarga de obtener, analizar e interpretar la información para sacar conclusiones acerca de un conjunto grande, por medio de la información obtenida de sólo una pequeña parte del conjunto total.
Nominal
Sexo
Edo. Civil
Nacionalidad

Ordinal
Nivel socioeconómico
Escolaridad
Discretas
Número de habitantes
Libros leídos anualmente
Número de casas con acceso a internet
Continuas
Tiempo de uso de internet
Porcentaje de población que votó por algún candidato
Grado de alcohol en la sangre
Un subconjunto representativo de la población.
Muestra
Conjunto de todos los elementos, con alguna característica en común, sobre el que se realizan las observaciones.
Población
Se consideran datos sin agrupar a los datos que hacen referencia a un valor específico.

Para realizar cálculos estadísticos es preferible tener datos sin agrupar, ya que con ellos se pueden realizar cálculos exactos.
Se consideran datos agrupados a aquellos que hacen referencia a varios valores. Generalmente se suele agrupar las variables numéricas en intervalos.

Dependiendo de la cantidad y diversidad de datos, puede ser más fácil manejarlos agrupados, en especial para su representación gráfica.
La tabla de frecuencias es un arreglo donde se presentan los datos obtenidos y la frecuencia con la que se observaron.

Las columnas que forman la tabla de frecuencias son:
Datos
Marca de clase (sólo datos agrupados)
Frecuencia
Frecuencia relativa
Frecuencia acumulada
Frecuencia relativa acumulada
Frecuencia
La columna FRECUENCIA captura el número de veces que el dato, o intervalo, se repitió al levantar las observaciones.

En la columna FRECUENCIA ACUMULADA se pone el resultado de sumar la columna de frecuencia hasta el dato, o intervalo, en cuestión.

La última celda de la columna frecuencia acumulada contiene el número total de datos.
Frecuencia
Relativa
La columna FRECUENCIA RELATIVA se obtiene al dividir la frecuencia entre el número total de datos.

En la columna FRECUENCIA RELATIVA ACUMULADA se pone el resultado de sumar la columna de frecuencia relativa hasta el dato en cuestión.

La última celda de la columna frecuencia relativa acumulada debe ser 1.
Representación por medio de barras de la frecuencia con la que aparece cada dato o intervalo.
Funciona para cualquier tipo de variable.
Es un método muy similar al histograma.
Se utilizan puntos, en lugar de barras, para representar la frecuencia.
Se unen los puntos por medio de líneas rectas.
La Ojiva es una representación gráfica de la frecuencia acumulada hasta cierto punto.
Al igual que el polígono de frecuencias, se construye por puntos unidos por líneas rectas.
No funciona para variables categóricas nominales.
Consiste en un círculo en el que se muestra el porcentaje del total que representa cada dato.
Para obtener la amplitud de cada dato se multiplica la frecuencia relativa por 360 grados.
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos.
La caja representa la distancia entre el primer y el tercer cuartil, el segundo cuartil se representa con una línea dentro de la caja.
Los brazos se colocan desde la caja hasta los valores máximo y mínimo.
En ocasiones se pueden incluir datos atípicos, pero es necesario un análisis previo.
Cuando una variable se mide repetidas ocasiones a lo largo de un periodo de tiempo se puede utilizar una gráfica de serie de tiempo.
Esta gráfica considera al tiempo en el eje horizontal y el valor de la variable en el eje vertical.
Se utilizan puntos unidos por líneas rectas.
Muy importante: no confundir con el polígono de frecuencias.
Una gráfica de dispersión generalmente se utiliza cuando se tienen dos variables del mismo individuo.
Tiene dos ejes de valores, uno horizontal y otro vertical. Cada eje se utiliza para una de las variables.
Cada dato se grafica como un punto.
PARA DATOS NO AGRUPADOS
La media aritmética de una muestra de "n" datos se obtiene sumando todos los datos y dividiendo el resultado entre "n".



PARA DATOS AGRUPADOS
En este caso se multiplica el valor medio de cada intervalo por la frecuencia del mismo. Se suman estos valores y por último se dividen entre el número total de datos.
Características
Es una medida totalmente numérica.

La media aritmética es altamente afectada por valores extremos.

La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y sólo una media aritmética.

Es el punto de equilibrio de la muestra.
La moda de un conjunto de datos es aquel que más se repite.
La moda puede no ser única e inclusive puede no existir.
Puede obtenerse la moda de variables categóricas.
No se ve afectada por valores extremos.
No está definida algebraicamente.
La mediana es el punto central de una serie de datos ordenados de forma ascendente o descendente.
Dependiendo del número de datos se puede calcular de dos formas distintas.
No se ve afectada por valores extremos.
Es única.
El rango de un conjunto de datos es el intervalo numérico donde caen todos nuestros datos. De esta forma el rango de una muestra es el intervalo que existe entre el valor mínimo y el valor máximo.

Se define la amplitud de rango como la diferencia entre el valor máximo y el valor mínimo.
La varianza de un grupo de datos nos permite saber que tan alejados están los datos de su media aritmética.

Se define como el promedio de las distancias entre los datos y su media, elevadas al cuadrado.

De nuevo se deben tratar distinto los datos agrupados y los no agrupados.
La desviación estándar se define como la raíz cuadrada de la varianza.
Se realiza este procedimiento como un intento de devolver el sentido a la escala de unidades.
Haciendo una generalización asintótica, por el teorema de límite central, se puede obtener la siguiente información:
Un 68% de los datos caerá en un intervalo de radio una desv. alrededor de la media.
Un 95% de los datos en un intervalo de radio 2 desv.
Un 99% en un intervalo de radio 3 desv
La desviación media sigue la misma idea que la varianza, obtener un promedio de las distancias a la media.
En lugar de elevar al cuadrado las diferencias, para calcular la desviación media se debe sacar el valor absoluto.
Esto provoca que los datos atípicos afecten en menor medida al estadístico en cuestión.
Es difícil de manipular matemáticamente.
Diplomado en metodología de la investigación social
U.N.A.M.
Instituto de Investigaciones Jurídicas

Los deciles son 9 valores contenidos en el rango de los datos, que dividen a la muestra en 10 partes iguales de acuerdo a la frecuencia.

Visto de otra forma, los deciles nos indican en que punto del rango se acumulan un 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% y 90% de la frecuencia.
Deciles
Los cuartiles son 3 valores contenidos en el rango de los datos, que dividen a la muestra en 4 partes iguales de acuerdo a la frecuencia.

Visto de otra forma, los cuartiles nos indican en que punto del rango se acumulan un 25%, 50%, y 75% de la frecuencia.
Cuartiles
Generalizando la idea de los cuartiles y los deciles, el k-ésimo percentil nos indican en qué punto del rango se acumula un k% de la frecuencia.
Percentiles
Para obtener el percentil del k% se debe hacer lo siguiente:

Sacar el k% del tamaño de muestra "n".

En caso de tener datos no agrupados, el percentil será el dato que acumule la frecuencia obtenida.

En caso de tener datos agrupados, el percentil estará en el intervalo que acumule la frecuencia obtenida.
¿Cómo se calculan?
Es aquel que bajo el mismo conjunto de condiciones iniciales siempre presenta el mismo resultado.
Se puede predecir el resultado de cada experimento en particular.
Fenómeno
determinista
Características
Los datos atípicos afectan en gran medida el valor de la varianza.

Al elevar al cuadrado se pierde el sentido de las unidades.
Full transcript