Apuntes Estadística Descriptiva

  • Published on
    16-Dec-2015

  • View
    8

  • Download
    3

Embed Size (px)

DESCRIPTION

Estadstica descriptiva

Transcript

<p> 1 "ESTADSTICA DESCRIPTIVA" 1.1 Parte bsica </p> <p> 2 1.1.1 Introduccin a la Estadstica 1.1.1.1 Concepto de Estadstica y Estadsticas La primera acepcin del trmino "Estadstica", que tiene origen histrico, hace referencia a una determinada informacin numrica; esta acepcin se encuentra cada da ms arraigada en nuestra sociedad debido al abultado conjunto de nmeros y cifras en el que se encuentra inmersa: P. I. B., ndices de precios, tasas de inflacin, evolucin del paro, cotizaciones burstiles, accidentes de circulacin, porcentajes de votantes, porcentajes de personas que padecen una determinada enfermedad, etc. Una segunda acepcin entiende la estadstica como una ciencia que facilita los mtodos precisos para la obtencin de informacin numrica, y que tambin proporciona mtodos de anlisis de esa informacin recogida y mtodos de investigacin aplicables al resto de las Ciencias. La primera se corresponde bsicamente con la estadstica descriptiva y la segunda con la estadstica inferencial. 1.1.1.2 Etapas del anlisis estadstico Las diversas fases por las que atraviesa el anlisis estadstico son: a) Recogida de datos, que no por ser elemental, est exenta de dificultades e indicaciones que hay que observar, ya que una recogida mal efectuada puede ocasionar un sesgo de la informacin y del posterior anlisis, por lo que el objeto de la investigacin debe plantearse de una manera minuciosa, as como la organizacin del trabajo de campo necesario para la recogida de datos. b) Ordenacin y presentacin de los datos, y que suele presentarse mediante unas tablas de simple o de doble entrada. c) Resumen de la informacin, para tratar de describir las caractersticas ms relevantes que pueden tener los datos, y que se realiza mediante la determinacin de parmetros estadsticos que intentan resumir toda la informacin que aporte el conjunto de datos. </p> <p> 3 d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden detectarse en las etapas previas. 1.1.1.3 Poblacin y muestra Recibe el nombre de Poblacin, Colectivo o Universo, todo conjunto de individuos o elementos que tienen unas caractersticas comunes. Dado que no siempre es posible estudiar todos los elementos de la poblacin, ya sea por razones econmicas, de rapidez de obtencin de la informacin, o porque los elementos se destruyen en el proceso de la investigacin, con frecuencia es necesario examinar slo una parte de la poblacin, que se denomina muestra; para que una muestra sea vlida como objeto de estudio, ha de ser representativa de la poblacin, es decir ha de tener las mismas caractersticas, en los caracteres estudiados, que la poblacin. 1.1.1.4 Caracteres de una poblacin Llamaremos variable al carcter objeto de estudio, que puede tomar distintos valores. Las variables pueden ser cuantitativa o cualitativas, segn que tomen, o no, valores cuantificables. Las variables de tipo cuantitativo, que estudian caracteres cuantificables, pueden clasificarse de diversas formas: variables discretas o continuas, segn que slo puedan tomar valores aislados o, por el contrario, todos los valores de un intervalo. 1.1.1.5 Tipos de escalas En determinado tipo de estudios, quiz tenga mayor relevancia diferenciar las variables segn el tipo de escala utilizada, distinguiendo: . Escala nominal: el carcter estudiado se clasifica en categoras no numricas, sin que puedan establecerse ninguna relacin de orden entre ellas, </p> <p> 4 por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el sexo, etc. . Escala ordinal: el carcter estudiado es de tipo no numrico, pero se pueden establecer algn tipo de orden entre las distintas categoras. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc. . Escala de intervalo: puede establecerse alguna unidad de medida y cuantificar numricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrndose en este caso gran nmero de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc. . Escala de proporcin: son aquellas variables en las que adems de una unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el nmero de unidades en stock en un inventario, etc. </p> <p> 5 1.1.2 Variables estadsticas unidimensionales 1.1.2.1 Distribucin de frecuencias. Clases. Vamos a tratar ahora de estructurar y ordenar los conjuntos numricos de los datos obtenidos en la observacin de una muestra o poblacin para as poder proceder con ms facilidad a su estudio. Empezaremos estudiando las frecuencias en sus diversas clases: . Frecuencia absoluta: es el nmero de veces que se repite cada valor de la variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por f i . Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmero total de datos u observaciones. El nmero total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n . Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la muestra. Se verifica pues: Fi = f j j=1 i ! . Frecuencia relativa acumulada: es el cociente entre la frecuencia absoluta acumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numrica o, al menos, ordinal. </p> <p> 6 La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica: Hi = Fi n = f j j=1 i !n 1.1.2.2 Propiedades de las frecuencias 1 La suma de las frecuencias absolutas coincide con tamao de la muestra: f i i ! = n 2 Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 = fi = n 3 La suma de las frecuencias relativas es 1: hi i ! =1 4 Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 = hi = n 5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato. DISTRIBUCIN DE FRECUENCIAS Llamaremos distribucin de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. As pues, para determinar una distribucin de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato). </p> <p> 7 Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribucin de frecuencias no est agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el nmero de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin. En la agrupacin en intervalos hay que tener en cuenta tres aspectos: a) Que el mximo de informacin se obtiene en la recogida de datos y que sta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente as, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo isimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1 Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es ms cmodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1.- Cmo se debe tomar la amplitud, constante o variable? 2.- Cuntos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultar estriles. </p> <p> 8 Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li- 1,Li), es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms que los de los datos, siendo, normalmente este decimal un 5. Por ltimo cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca de clase del intervalo [Li-1,Li) ser: ci = Li!1 + Li 2 EJEMPLO 1.1: Investigados los precios por habitacin de 50 hoteles de una ciudad, se han obtenido los siguientes resultados: 7000 3000 5000 4000 5000 7000 4000 7500 8000 5000 5000 500 3000 7000 10000 15000 5000 7500 12000 8000 4000 5000 3000 5000 10000 3000 4000 5000 7000 5000 3000 4000 7000 4000 7000 5000 4000 7000 10000 7500 7000 8000 7500 7000 7500 8000 7000 7000 12000 8000 Determinar la distribucin de precios: a) Sin agrupar en intervalos. b) Agrupadas en 5 intervalos de amplitud constante. Solucin: a) Precio (xi) en miles 3 4 5 7 7.5 8 10 12 15 N de hoteles (fi) 5 7 10 11 6 5 3 2 1 </p> <p> 9 b) Precio en intervalos marca de clase (xi) N de hoteles (fi) [3000, 5500) [5500, 8000) [8000, 10500) [10500, 13000) [13000, 15500) 4250 6750 9250 11750 14250 22 17 8 2 1 </p> <p> 10 1.1.3 Representaciones grficas La informacin proporcionada por las tablas de distribucin de frecuencias es bastante completa, pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparacin para relativizar la informacin de unas clases respecto de las otras. Adems, en la experiencia del lector, al comenzar a leer un determinado artculo (cientfico o no), su vista se dirige primero al ttulo, luego a los grficos y, finalmente, a las tablas. As pues, las representaciones grficas constituyen uno de los principales y ms sencillos mtodos de exponer la informacin, por su capacidad de impactar al lector con muy poco esfuerzo por su parte, dando una informacin rpida y global de los datos, siendo tiles incluso al investigador, pues le permiten tener una idea general de los resultados y, a veces, sugerir nuevas hiptesis. 1.1.3.1 Tipos de representaciones grficas Los diversos tipos de grficos utilizados son: 1 DIAGRAMAS DE BARRAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS: En un sistema de ejes de coordenadas cartesianas, se representan en el eje de abscisas los valores de la variable, y en el de ordenadas las frecuencias. Posteriormente, sobre cada valor de la variable se levanta una barra vertical de altura proporcional a la frecuencia, ya sea absoluta o relativa. Sobre el eje de abscisas la escala de medida puede ser cualquiera y no coincidir con la escala del eje de ordenadas. Incluso el cero del eje de abscisas no tiene porque coincidir con el cero de la medida utilizada. EJEMPLO 1.2: Supongamos una variable X que presenta los siguientes valores : xi = { a, e, i, o, u } con las siguientes frecuencias: f1 = 1 f2 = 2 f3 =1 f4 = 3 f5 = 3, correspondientes a las veces que aparecen dichas vocales en una frase. </p> <p> 11 Construya el diagrama de barras correspondiente y el diagrama de barras acumulado, o diagrama de escalera. Solucin: Podemos presentar entonces la siguiente tabla: xi fi Fi hi Hi a 1 1 0,1 0,1 e 2 3 0,2 0,3 i 1 4 0,1 0,4 o 3 7 0,3 0,7 u 3 10 0,3 1 El diagrama de barras correspondiente aparece en la figura 1.1: . 01234 VOCALES a e i o u FRECUENCIAS Figura 1.1: Diagrama de brarras Si lo que queremos representar son las frecuencias acumuladas, se procede igual que en el caso anterior con los ejes cartesianos y levantando sobre cada valor de la variable, una altura proporcional (igual) a la frecuencia acumulada, uniendo mediante trazos horizontales el extremo de cada coordenada con el siguiente; este diagrama recibe el nombre de diagrama de escalera (ver figura 1.2). </p> <p> 12 Figura 1.2: Diagrama de barras acumulado. (Diagrama de escalera) Los grficos de diagrama de barras y de escalera suelen utilizarse en variables de tipo cualitativo, o en las de tipo cuantitativo discretas. 2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS: Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los anteriores. Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3): </p> <p> 13 Figura 1.3: Polgono de frecuencias. Anlogamente se procedera con las frecuencias acumuladas (ver figura 1.4). . VOCALES FRECUENCIAS ACUMULADAS 5 10 a e i o u Figura 1.4.: Polgono de frecuencias acumulado. Estos polgonos de frecuencias se utilizan cuando la variable es de tipo cualitativo o cuando es de tipo cuantitativo discreta. 3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EN INTERVALOS Se construyen levantando, sobre cada intervalo de la variable, un rectngulo de rea proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas respectivas, pues al ser las bases iguales las reas son proporcionales a las alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de los rectngulos deben calcularse dividiendo la frecuencia absoluta por la longitud del intervalo; sta se puede representar por ai y vale pues: ai = f i ci y de esta forma, el rea del rectngulo coincide con la frecuencia: Si = ai ci = f i ci ci = f i </p> <p> 14 La altura ai correspondera a la frecuencia correspondiente a cada unidad d...</p>