Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Organización de datos

No description
by

Estefania Arredondo

on 19 August 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Organización de datos

Organización de datos

Análisis exploratorio de datos: diagrama de talos y hojas
El análisis exploratorio de datos (AED) está formado por un conjunto de técnicas estadísticas, fundamentalmente gráficas, que pretenden dar una visión simple e intuitiva de las principales características de la distribución en estudio. El AED puede ser un fin por sí mismo o una primera etapa de un estudio más completo. Como aspectos más destacables que abarca el AED, están los que se refieren a la forma de la distribución y a la detección de valores anómalos.
Intervalo de clase y límites de clase
Intervalo de clase:
Los intervalos de clase se emplean si las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Marca de clase
La marca de clase es el punto medio de cada intervalo.
La marca de clase es el valor que representa a todo el intervalo para el cálculo de algunos parámetros como la media artmética o la desviación típica.
Se representa por ci o xi.

DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISCRETAS Y CONTINUAS
Una distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Escalas de medición: nominal, ordinal, de intervalo y de razón
Escalas de Medida: Para realizar un correcto análisis de los datos es fundamental conocer de antemano el tipo de medida de la variable, ya que para cada una de ellas se utiliza diferentes estadísticos. La clasificación más convencional de las escalas de medida las divide en cuatro grupos denominados Nominal, Ordinal, Intervalo y Razón.
Tablas de frecuencia para variables discretas y continuas
La manera lógica de organizar datos es crear categorías y luego asignar las observaciones a una categoría. Pero nuestra capacidad de categorizar está limitada por la naturaleza de las variables que usamos. Además, no todas las variables se pueden categorizar con la misma facilidad. En términos estadísticos, las variables que interesa medir pueden ser (a) discretas o (b) continuas.
Elementos básicos de las tablas de intervalos:
Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una distribución de frecuencias
Límites aparentes: Valores mayor y menor del intervalo que son observados en la tabla. Dependen de la precisión del instrumento de medida. En el ejemplo, los límites aparentes del intervalo con mayor número de frecuencias son 34 y 39.
Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se contara con un instrumento de precisión perfecta. En el intervalo 34-39, estos límites son 33.5 y 39.5
Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por dos. Mc del intervalo del ejemplo= 36.5
Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto inferior. En el ejemplo es igual a 6.
ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS
Una técnica de recuento y ordenación de datos la constituye los diagramas de Tallos y Hojas. Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "31" sería dividido en "3" (tallo/ decena) y "1" (hoja/ unidad).
Ejemplo:
Representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas:
Supongamos la siguiente distribución de frecuencias,

36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40

Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo.
Por último reordenamos las hojas y hemos terminado el diagrama
Los expertos dirán que dicha representación es un histograma y, en efecto, así es. Los diagramas de Tallos y Hojas además de ser fáciles de elaborar, presentan más información que los histogramas, como veremos más adelante.
Existe también el diagrama de doble tallo o tronco y hojas. En esta gráfica duplicamos el número de posiciones del tronco dividiendo por la mitad el intervalo que cubre a cada decena.
NOMINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarle un valor a los hombres y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos establecer que uno es mayor que el otro.
INTERVALO
Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
Análisis Descriptivo de acuerdo al nivel de Medida
No todos los procedimientos estadísticos son realmente útiles para la totalidad de los niveles de medida. Cada uno de los tipos de medida posee ciertas características, las cuales debemos tener en cuenta en el momento de realizar un análisis descriptivo. En la tabla encontrarás algunos de los procedimientos que resultan ventajosos en los análisis descriptivos de los diferentes niveles de medida. Es necesario aclarar que esta tabla es sólo una muestra de las medidas que se pueden emplear; en algunos textos de estadística aparecen tablas más amplias y detalladas de los procedimientos.
Variables discretas
Aquellas cuyas observaciones se agrupan ‘inherentemente’ o ‘naturalmente’ en categorías, porque dichas variable por su naturaleza sólo pueden tomar ciertos valores muy específicos. El “género” de un sujeto es un buen ejemplo de una variable discreta: los seres humanos pueden ser mujeres u hombres, se ajustan a una u otra categoría y no hay continuidad ni puntos intermedios entre ellas. Los países o regiones del mundo también son buenos ejemplos de variables discretas. Otro ejemplo son las calificaciones o educación de los maestros. Podemos crear las siguientes categorías para describir esta última variable: (a) educación primaria completa, (b) educación secundaria completa, (c) educación superior incompleta, (d) educación superior completa y (e) educación de postgrado.
Variables continuas
las variables continuas, como su nombre lo indica, sólo se pueden agrupar en forma arbitraria en categorías, porque por su naturaleza pueden tomar cualquier valor a lo largo de un continuo (o de una escala numérica continua). La estatura de los habitantes de un país es un ejemplo de variable continua, así como el ingreso de las familias en dicho país. Un buen ejemplo en el área de la educación son las “calificaciones de pruebas”, que sólo se pueden agrupar arbitrariamente creando ‘intervalos’ artificiales, como por ejemplo 1-20, 21-40, etc. Note que los intervalos también podrían ser 1-10, 11-20, 21-30, etc, o cualquier otro intervalo que se prefiera, ya que la variable no se ajusta naturalmente a categorías predeterminadas como en el caso de las variables discretas.
Tablas de frecuencia
Son Tablas que pueden presentan múltiples columnas:
vi = Columna de modalidades del carácter cualitativo o atributo.
xi = Columna de modalidades de la variable discreta.
m.c. = Marca de clase. Es el valor medio del intervalo de valores que toma xi, cuando xi es una variable continua.
fi = Frecuencia o cantidad de veces que se repite cada modalidad.
fr = fi / Σ fi = Frecuencia relativa de dicha modalidad, o sea la cantidad de veces que se repite en relación al total. Suele expresarse en porcentaje en lugar del número decimal que resulta.
Fi = Frecuencia acumulada , que es la acumulación o suma de todas las modalidades anteriores.
Fr = Fi / Σ fi = Es la frecuencia relativa acumulada, la frecuencia relativa a la suma de todas las modalidades anteriores.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Rango
El rango de clase, conocido también como amplitud de clase o recorrido de clase, es el límite dentro de los cuales están comprendidos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio de investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango de una distribución de frecuencia se designa con la letra R.
Ejemplo
La distribución del número de horas que duraron encendidas 200 ampolletas está dada en la figura.
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Based on Jim Harvey's speech structures
Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución.
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.
Los valores del "tallo" se escriben hacia abajo (vertical) y los valores "hoja" van a la derecha (horizontal) de los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.
ORDINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de educación, ya que se puede establecer que una persona con título de Postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o medible.
Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida.
Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta discutiremos a continuación los diferentes procedimientos estadísticos que se pueden utilizar de acuerdo al tipo de medida de cada variable.
RAZÓN
Si nos fijamos en la tabla, notaremos que los niveles Nominal y Ordinal cuentan con los mismos procedimientos de análisis, por lo que se agrupan como variables categóricas. A partir de este punto cuando nos refiramos a las variables categóricas debemos recordar que se alude a las variables de tipo Nominal y Ordinal.
Es importante resaltar que para los análisis descriptivos no hay una gran diferencia entre estos dos tipos de variables, pero si existe diferencia en los análisis de Inferencia.
La distinción entre variables discretas y continuas es de gran aplicabilidad en la estadística. Pero su importancia sólo queda clara después de comprender el concepto estadístico fundamental de ‘distribución’ o ‘distribución de frecuencias’. (Los estadísticos por lo general usan la primera versión, la más corta, para referirse a la distribución de frecuencias.)
La mayoría de las veces hay que ampliar el número de columnas:
xi.fi = Columna del producto o peso real de la modalidad.
x – xi = Columna de las desviaciones.
|x – xi| = Columna de la desviación absoluta.
(x – xi)2 = Columna de las cuadrados de las desviaciones.
xi2 = Columna de las cuadrados de las modalidades.
fi.xi2 = Columna del producto de la varianza.
Y además, en las siguientes columnas hay que hallar el sumatorio, la suma de todos los valores que existen en dicha columna:
fi , xi.fi , |x – xi|, fi.xi2
Para el sumatorio, ∑, se reserva la última fila de la tabla de frecuencias.
Ejemplo_1
Calificaciones de 100 alumnos de una clase en Matemáticas
VARIABLE DISCRETA
Ejemplo 2
Calificaciones de 200 alumnos de una clase en Matemáticas
VARIABLE CONTINUA

Límites de la clase
: Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.
Construcción de una tabla con Intervalos de clase
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
2º Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el número de intervalos de queramos poner.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo.
Límites de clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
En una distribución de frecuencias agrupadas el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo.
Ejemplo
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
Para calcular el rango se utiliza la siguiente fórmula:
R = XM - Xm + UM
Dónde:
R = Rango
XM= Valor maximo
Xm= Valor minimo
UM = Unidad de Medida, que por lo general es la unidad.
Anchura o intervalo de clase
Son las divisiones o categorías en las cuales se agrupa un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre los dos límites (límite Superior de la Clase y Límite Inferior de la Clase).
Límite o frontera de clase
Las clases de una distribución de frecuencia indican las cotas o fronteras de cada clase en la distribución, las clases están formadas por dos números denominados límites aparentes (LA), ejemplo 32 – 37, el primero de estos dos (32) se llama límite inferior aparente (LIA) y el segundo (37) se le denomina límite superior aparente (LSA).
Límites reales
Los límites reales o verdaderos de una clase son aquéllos que se obtienen restándole media unidad de medida al límite aparente inferior de una clase y sumándole media unidad de medida al límite superior aparente de las diferentes clases, es decir, son valores no observables de la variable en estudio, puesto que no lo registra la unidad utilizada. Y se denominarán límite inferior real (LIR) y límite superior real (LSR).
La duración promedio de una ampolleta en horas, aproximadamente es:
A) 1 ;
B) 380 ;
C) 400 ;
D) 480 ;
E) 580
Solución: Como no se sabe la precisión para cada ampolleta (por ejemplo podría ser que las 60 ampolletas que duraron entre 200 y 400 horas, todas hubiesen durado 201 horas), se usan marcas de clase para cada intervalo.Las marcas de clase son: 300, 500 y 700, para la duración ....
Luego calculamos:
La alternativa correcta es D)
Para indicar resumidamente estas sumas se utiliza la letra griega (sigma mayúscula) que se lee suma o sumatoria.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Se representa por Fi.

Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.
Este tipo de tablas de frecuencias se utiliza con variables discretas.
Full transcript