La estadística descriptiva

  • Published on
    29-Jun-2015

  • View
    973

  • Download
    0

Embed Size (px)

Transcript

<ul><li> 1. La estadstica descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una poblacin, altura delos estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre elcomportamiento de estas variables.Las variables pueden ser de dos tipos:Variables cualitativas o atributos: no se pueden medir numricamente (por ejemplo: nacionalidad, color de la piel,sexo).Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales).Las variables tambin se pueden clasificar en:Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los alunmosde una clase).Variables bidimensionales: recogen informacin sobre dos caractersticas de la poblacin (por ejemplo: edad yaltura de los alumnos de una clase).Variables pluridimensionales: recogen informacin sobre tres o ms caractersticas (por ejemplo: edad, altura ypeso de los alumnos de una clase).Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede ser 1, 2,3....,etc, pero, por ejemplo, nunca podr ser 3,45).Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehculo puedeser 80,3 km/h, 94,57 km/h...etc.Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:Individuo: cualquier elemento que porte informacin sobre el fenmeno que se estudia. As, si estudiamos la altura delos nios de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es unindividuo.Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten informacin sobre elfenmeo que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total delas viviendas de dicha ciudad.Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la vivienda de una ciudad, lonormal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy compleja), sino que sesuele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.LECCION 2Distribucin de frecuenciaLa distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que se harecogido sobre la variable que se estudia.VariableFrecuencias absolutasFrecuencias relativas(Valor) SimpleAcumulada SimpleAcumuladax xx x x X1n1n1f1 = n1 / nf1 X2n2 n1 + n2f2 = n2 / n f1 + f2 ... ... ... ... ...Xn-1nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1 Xnnn Sn fn = nn / n Sf</li></ul><p> 2. Siendo X los distintos valores que puede tomar la variable.Siendo n el nmero de veces que se repite cada valor.Siendo f el porcentaje que la repeticin de cada valor supone sobre el totalVeamos un ejemplo:Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):Alumno Estatura AlumnoEstaturaAlumno Estatura x xx xxx Alumno 11,25Alumno 111,23 Alumno 21 1,21 Alumno 21,28Alumno 121,26 Alumno 22 1,29 Alumno 31,27Alumno 131,30 Alumno 23 1,26 Alumno 41,21Alumno 141,21 Alumno 24 1,22 Alumno 51,22Alumno 151,28 Alumno 25 1,28 Alumno 61,29Alumno 161,30 Alumno 26 1,27 Alumno 71,30Alumno 171,22 Alumno 27 1,26 Alumno 81,24Alumno 181,25 Alumno 28 1,23 Alumno 91,27Alumno 191,20 Alumno 29 1,22 Alumno 10 1,29Alumno 201,28 Alumno 30 1,21Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:Variable Frecuencias absolutasFrecuencias relativas(Valor)Simple AcumuladaSimple Acumuladaxxxx x1,20 113,3%3,3%1,21 4513,3%16,6%1,22 4913,3%30,0%1,23 2 116,6% 36,6%1,24 1 123,3% 40,0%1,25 2 146,6% 46,6%1,26 3 1710,0%56,6%1,27 3 2010,0%66,6%1,28 4 2413,3%80,0%1,29 3 2710,0%90,0%1,30 3 3010,0%100,0%Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces convieneagruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muypoco valor a efectos de sntesis. (tal como se ver en la siguiente leccin). 3. LECCION 3Distribuciones de frecuencia agrupadaSupongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resultados (cm): HabitanteEstatura Habitante Estatura HabitanteEstaturax xx xxx Habitante 1 1,15Habitante 111,53Habitante 21 1,21 Habitante 2 1,48Habitante 121,16Habitante 22 1,59 Habitante 3 1,57Habitante 131,60Habitante 23 1,86 Habitante 4 1,71Habitante 141,81Habitante 24 1,52 Habitante 5 1,92Habitante 151,98Habitante 25 1,48 Habitante 6 1,39Habitante 161,20Habitante 26 1,37 Habitante 7 1,40Habitante 171,42Habitante 27 1,16 Habitante 8 1,64Habitante 181,45Habitante 28 1,73 Habitante 9 1,77Habitante 191,20Habitante 29 1,62Habitante 10 1,49Habitante 201,98Habitante 30 1,01Si presentramos esta informacin en una tabla de frecuencia obtendriamos una tabla de 30 lneas (una para cadavalor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nosaportara escasa informacin En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacinqueda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e informativa:Estatura Frecuencias absolutas Frecuencias relativas Cm SimpleAcumulada Simple Acumuladax xx x x 1,01 - 1,1011 3,3%3,3% 1,11 - 1,203410,0% 13,3% 1,21 - 1,303710,0% 23,3% 1,31 - 1,4029 6,6% 30,0% 1,41 - 1,50615 20,0% 50,0% 1,51 - 1,60419 13,3% 63,3% 1,61 - 1,70322 10,0% 73,3% 1,71 - 1,80325 10,0% 83,3% 1,81 - 1,902276,6% 90,0% 1,91 - 2,00330 10,0% 100,0%El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es quemientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa seala tabla.LECCION 4 Medidas de posicin centralLas medidas de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. Estas medidaspermiten conocer diversas caractersticas de esta serie de datos.Las medidas de posicin son de dos tipos:a) Medidas de posicin central: informan sobre los valores medios de la serie de datos.b) Medidas de posicin no centrales: informan de como se distribuye el resto de los valores de la serie.a) Medidas de posicin central 4. Las principales medidas de posicin central son las siguientes:1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo lasms utilizadas:a) Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todosestos productos se divide por el total de datos de la muestra: (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn) Xm =--------------------------------------------------------------------------------------- nb) Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo estosresultados y al producto fiinal se le calcula la raz "n" (siendo "n" el total de datos de la muestra).Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la media geomtrica.La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor decada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo caso, la media aritmtica es la medidade posicin central ms utilizada.Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierdeninguna informacin.Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmtica como geomtrica) se puedever muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podrancondicionar en gran medida el valor de la media, perdiendo sta representatividad.2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valoresson inferiores y otro 50% son superiores).No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda lainformacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).3.- Moda: es el valor que ms se repite en la muestra.Ejemplo: vamos a utilizar la tabla de distribucin de frecuencias con los datos de la estatura de los alumnos que vimosen la leccin 2.VariableFrecuencias absolutasFrecuencias relativas (Valor)SimpleAcumulada SimpleAcumulada xx xxx 1,20 113,3% 3,3% 1,21 45 13,3%16,6% 1,22 49 13,3%30,0% 1,23 211 6,6%36,6% 1,24 112 3,3%40,0% 1,25 214 6,6%46,6% 1,26 31710,0%56,6% 1,27 32010,0%66,6% 1,28 42413,3%80,0% 1,29 32710,0%90,0% 1,30 33010,0% 100,0% 5. Vamos a calcular los valores de las distintas posiciones centrales:1.- Media aritmtica:(1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3) Xm =--------------------------------------------------------------------------------------------------30Luego: Xm =1,253Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.2.- Media geomtrica: X=((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30)Luego: Xm =1,253En este ejemplo la media aritmtica y la media geomtrica coinciden, pero no tiene siempre por qu ser as.3.- Mediana:La mediana de esta muestra es 1,26 cm, ya que por debajo est el 50% de los valores y por arriba el otro 50%. Esto sepuede ver al analizar la columna de frecuencias relativas acumuladas.En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situara exactamente entre el primer y elsegundo valor de este grupo, ya que entre estos dos valores se encuentra la divisin entre el 50% inferior y el 50%superior.4.- Moda:Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modasLECCION 5Medidas de posicin no centralMedidas de posicin no centralesLas medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son losvalores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramosiguales:Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatrotramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramosiguales, en los que cada uno de ellos concentra el 10% de los resultados.Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cientramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.Ejemplo: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos (leccin2). Los deciles y centiles se calculan de igual manera, aunque hara falta distribuciones con mayor nmero de datos. 6. VariableFrecuencias absolutasFrecuencias relativas (Valor)Simple AcumuladaSimple Acumulada xxxxx 1,201 13,3% 3,3% 1,214 5 13,3%16,6% 1,224 9 13,3%30,0% 1,232116,6%36,6% 1,241123,3%40,0% 1,252146,6%46,6% 1,26317 10,0%56,6% 1,27320 10,0%66,6% 1,28424 13,3%80,0% 1,29327 10,0%90,0% 1,30330 10,0% 100,0%1 cuartil: es el valor 1,22 cm, ya que por debajo suya se situa el 25% de la frecuencia (tal como se puede ver en lacolumna de la frecuencia relativa acumulada).2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se situa otro 25% de la frecuencia.3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la frecuencia. Adems, porencima suya queda el restante 25% de la frecuencia.Atencin: cuando un cuartil recae en un valor que se ha repetido ms de una vez (como ocurre en el ejemplo en lostres cuartiles) la medida de posicin no central sera realmente una de las repeticiones.LECCION 6Medidas de dispersinEstudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms omenos dispersos.Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las siguientes:1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y elvalor ms bajo.2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de lasdifrencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor.El sumatorio obtenido se divide por el tamao de la muestra. La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.3.- Desviacin tpica: Se calcula como raz cuadrada de la varianza.4.- Coeficiente de varizacin de Pearson: se calcula como cociente entre la desviacin tpica y la media.Ejemplo: vamos a utilizar la serie de datos de la estatura de los alumnos de una clase (leccin 2) y vamos a calcularsus medidas de dispersin. 7. Variable Frecuencias absolutas Frecuencias relativas (Valor)SimpleAcumulada Simple Acumulada xx x xx 1,20 113,3%3,3% 1,21 45 13,3%16,6% 1,22 49 13,3%30,0% 1,23 211 6,6%36,6% 1,24 112 3,3%40,0% 1,25 214 6,6%46,6% 1,26 31710,0%56,6% 1,27 32010,0%66,6% 1,28 42413,3%80,0% 1,29 32710,0%90,0% 1,30 33010,0% 100,0%1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de estamuestra es 10 cm.2.- Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la frmula:Por lo tanto, la varianza es 0,00103.- Desviacin tpica: es la raz cuadrada de la varianza.Luego:4.- Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media de lamuestra.Cv = 0,0320 / 1,253Luego,Cv = 0,0255 El inters del coeficiente devariacin es que al ser unporcentaje permite comparar el nivel de dispersin de dos muestras. Esto no ocurre con la desvacin tpica, ya queviene expresada en las mismas unidas que los datos de la serie.Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otraserie con el peso de dichos alumnos, no se puede utilizar las desviaciones tpicas (una viene vienes expresada en cm yla otra en kg). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar. 8. LECCION 7Medidas de forma: Grado de concentracinLas medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. Enconcreto, podemos estudiar las siguientes caractersticas de la curva:a) Concentracin: mide si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de lamuestra.b) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro desimetra) los segmentos d...</p>