Unidad II Estadística Descriptiva

  • Published on
    11-Jul-2015

  • View
    262

  • Download
    1

Embed Size (px)

Transcript

<p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>UNIDAD II: ESTADISTICA DESCRIPTIVAIntroduccin: La estadstica descriptiva es un conjunto de procedimientos que tienen por objeto presentar conjuntos de datos por medio de tablas, grficos y/o medidas de resumen. De acuerdo a lo anterior, la estadstica descriptiva es la primera etapa a desarrollar en un anlisis de informacin. Qu es la Estadstica? La estadstica es una disciplina que disea los procedimientos para la obtencin de los datos, como asimismo proporciona las herramientas que permiten extraer la informacin. Propsito de la Estadstica. El anlisis estadstico se usa para manipular, resumir e investigar datos con el fin de obtener informacin til en la toma de decisiones. Observacin: No olvide que el propsito de todos los procedimientos estadsticos, independientemente de su complejidad, es extraer informacin til de los datos disponibles. Algunas aplicaciones de conceptos estadsticos pueden ser: a) b) c) d) e) En contabilidad: Recoleccin de datos. En prevencin de riesgos: La prevalencia de accidentarte el trabajador. En sistemas de informacin administrativas: Recoleccin de datos, Regresin. En administracin de operaciones: Nmeros ndices. En control de calidad: Presentacin de datos, Estadstica descriptiva.</p> <p>1. Definiciones 1.1. Poblacin y muestra Poblacin: es el conjunto completo de individuos o elementos de inters. Existen momentos en los que se puede medir o examinar cada elemento de la poblacin, por ejemplo, todos los estudiantes de una clase contestarn un cuestionario. Si hay 35 estudiantes en la clase y slo se desea la informacin sobre esta clase, los estudiantes constituyen la poblacin, y se puede medir a cada uno por sus respuestas al cuestionario. Cuando se intenta medir a todos los miembros de una poblacin de inters, el resultado es un censo.Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>1</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>Censo: es medir todos los elementos de una poblacin de inters. En la mayora de las investigaciones estadsticas es imposible estudiar a toda la poblacin, debido que los censos son difciles y muy costosos. De esta manera es necesario seleccionar un pedazo de esta poblacin o mejor llamado muestra. Muestra: es un subconjunto representativo seleccionado de la poblacin. El concepto de representativo es muy importante ya que una buena muestra es aquella que refleje las caractersticas esenciales de la poblacin de la cual se obtuvo. Nota: Un parmetro es cualquier caracterstica medible de la poblacin, y un estadstico o estadgrafo es cualquier caracterstica medible de una muestra. 1.2. Variables y atributos: Tipo de datos Unidad: es el objeto que observamos. Cuando el objeto es una persona, lo referimos como sujeto. Observacin: es la informacin o caracterstica que registramos de cada unidad. Una caracterstica que puede variar de unidad en unidad es llamada variable. Una coleccin de observaciones con una o ms variables se llama base de datos. Los datos estadsticos generalmente se obtienen contando o midiendo objetos. Algunos ejemplos de medidas son el promedio de notas, la tasa de desempleo, las ventas mensuales de un supermercado, la tasa de accidentes vehiculares, etc. Estas medidas se llaman variables, porque pueden tomar muchos valores diferentes. Una variable es un elemento de inters que pude tomar muchos valores numricos diferentes. Una constante tiene un valor fijo. Las variables se pueden clasificar en dos tipos: cuantitativas o cualitativas. Una variable cuantitativa es aquella que posee valores numricos que representan medidas (largo, peso, etc.) o frecuencias (nmero de accidentes). Tiene sentido realizar operaciones numricas con estas variables. Adems estas variables se subdividen en discretas y continuas. Una variable cuantitativa discreta se dice de la cual se puede contar el nmero posible de valores (por ejemplo: nmero de accidentes en el metro, cantidad de ilesos, etc). Una variable cuantitativa continua puede tomar cualquier valor en un intervalo dado y est sujeto a la precisin de los instrumentos de medicin (por ejemplo: el tiempo en que un trabajador realiza una tarea, el cual depende de la precisin del cronmetro usado).</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>2</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>Una variable cualitativa es aquella que clasifica las unidades en categoras. Las categoras pueden tener un orden natural (ordinales) o no (nominales), de esta manera las variables cualitativas se dividen en ordinales y nominales. Las variables cualitativas tambin se llaman variables categricas. Con estas variables podemos contar nmero de casos, comparar entre categoras, pero no podemos realizar operaciones numricas. Un ejemplo de variable categrica ordinal podra ser el nivel de accidentacin del trabajador (nunca sucede, la mitad de las veces sucede o siempre sucede) y para una variable categrica nominal podra ser el sexo del individuo (femenino o masculino). Lo anterior se mostrar como la siguiente tabla:</p> <p>Ejemplo 1: Determine qu tipo son las siguientes variables. Si son variables cualitativas (nominal u ordinal) o cuantitativas (discretas o continuas). a) Marca de automvil variable cualitativa nominal b) Duracin de un compacto (segundos) variable cuantitativa continua c) Nmero de temas de un compacto variable cuantitativa discreta d) Nivel educacional (bsica, media, universitaria) variable cualitativa ordinal e) Temperatura al medioda en Talca (grados Celcius) variable cuantitativa continua f) Estado civil (soltero, casado, divorciado, viudo) variable cualitativa nominal g) Cantidad de lluvia en un ao en Talca (mm3) variable cuantitativa continua</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>3</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>2. Recoleccin y presentacin de datos: Distribucin de frecuencias Una vez que se hayan reunido los datos, deben procesarse de tal manera que pueda observarse cualquier patrn significativo. En esta etapa se debe estudiar algunas tcnicas que permitan convertir los datos brutos en informacin relevante en la toma de decisiones. En este tem se darn las tcnicas bsicas ms usadas para presentar el conjunto de datos en forma resumida. Estas tcnicas son importantes tanto para datos cuantitativos como para los cualitativos. Una forma comn y muy til para resumir el conjunto de datos es la distribucin de frecuencias o tabla de frecuencias. Este mtodo de presentacin de datos muestra la frecuencia (nmero de ocurrencias) para cada una de las categoras. Ejemplo 2 (Variable cualitativa o atributo): Los resultados obtenidos al observar el estado de 80 artculos que componen un lote, dio origen a los siguientes datos: A A D R A ARRAAADAAARAAAARRAADAAAARAAARAAAARARAA A A A A A A R A A A D A A A A A A A A A R R A A A A A A A A A A A R A R D. Solucin: La tabla de distribucin de frecuencias est dada por: Categoras Piezas aceptadas (A) Piezas rechazadas (R) Piezas dudosas (D) Total Frecuencia absoluta ( n i ) 60 15 5 n = 80 Frecuencia relativa ( f i ) 0.75 (60/80) 0.19 (15/80) 0.06 (5/80) 1.00 (80/80)</p> <p>Ejemplo 3 (Variable cuantitativa discreta): Para estimar el nmero de alumnos ausentes en las clases de Estadstica, un profesor decide seleccionar 25 clases al azar (muestra) y contar el nmero de alumnos que faltan por clase (variable). Los datos son los siguientes: 7,10,8,6,8,9,9,9,8,6,3,9,8,7,9,10,4,5,10,2,7,8,7,8 y 6.</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>4</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>Solucin: La tabla de distribucin de frecuencias est dada por: i 1 2 3 4 5 6 7 8 9 Categoras(xi ) 2 3 4 5 6 7 8 9 10 Total ni 1 1 1 1 3 4 6 5 3 n = 25 fi 0.04 0.04 0.04 0.04 0.12 0.16 0.24 0.20 0.12 1.00 Ni</p> <p>Fi1/25 = 0.04 2/25 = 0.08 3/25 = 0.12 4/25 = 0.16 7/25 = 0.28 11/25 = 0.44 17/25 = 0.68 22/25 = 0.88 25/25 = 1</p> <p>1 2 3 4 7 11 17 22 25</p> <p>Donde: n i : Es la frecuencia absoluta (nmero de coincidencias en la categora). Por ejemplo en la categora 5 hay 3 coincidencias o sea n 5 = 3 . fi =</p> <p>ni se llama frecuencia relativa de la i-sima categora (se acostumbra expresarla n en porcentaje). Por ejemplo para la categora 5 f 5 = 0 . 1 2 indica que el 12% de las veces faltaron 6 alumnos a clases. N Adems de las frecuencias relativas es conveniente indicar las frecuencias absolutas acumuladas ( N i ) y las frecuencias relativas acumuladas ( F i ), donde por ejemplo:5</p> <p>= n1 + n2 + n3 + n4 + n5 = 7 N 7 F5 = 5 = = 0 .2 8 o l o n 2 5</p> <p>y s q lu o e m e F 5i =s fm1 + fo 2 + f 3 + f 4 + f 5 = 0 . 2 8</p> <p>N 5 = 7 indica que con siete clases se tiene a lo ms 6 alumnos ausentes. F 5 = 0 . 2 8indica que el 28% de las veces faltaron 6 alumnos o menos, mientras que el 72% restante faltaron ms de 6 alumnos. Cuando el nmero de valores posibles de una variable cuantitativa discreta o continua sea grande, conviene agrupar en intervalos de clase.</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>5</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>Los intervalos pueden ser de amplitud variable o constante. La seleccin del nmero de intervalos o clases (k), depende de cada caso. Es aconsejable que haya menos de 15 clases (para un fcil manejo y con el fin de asegurar una compactacin suficiente de informacin) y por lo menos 5 (para evitar la prdida de informacin que se producira al reunir en un grupo datos muy diferentes). Por lo general, las clases se eligen de modo que la amplitud de cada una de ellas sea igual para todas las categoras o intervalos de clase. Pasos para la construccin de una distribucin de frecuencias: 1er Paso Determinar k, nmero de clases. Se utiliza la regla de Sturge que dice: k 1 + 3 . 3 l o n g) ( 2do Paso Determinar A, el tamao o amplitud de cada clase. Para ello se determina la diferencia entre el valor ms grande del conjunto de datos y el ms pequeo, y luego se divide por el nmero de clases (k). O sea: A = 3er Paso 4to Paso 5to Paso Xm ia m x</p> <p>o X k</p> <p>m</p> <p>i i mn</p> <p>o</p> <p>Determinar el punto inicial de la primera clase. Contar el nmero de valores que ocurren en cada clase. Preparar la tabla de frecuencia utilizando las frecuencias absolutas y/o relativas.</p> <p>Observaciones: Si existe un nmero grande de elementos u observaciones, digamos ms de 1000, por lo general se usa un nmero relativamente grande de clases (11 o ms). Si el conjunto de datos es pequeo, por ejemplo, menos de 60 observaciones, se usa un nmero pequeo de clases (5 6).</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>6</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>Ejemplo 4: (Variable cuantitativa continua) Los siguientes datos representan las duraciones, en aos, de 40 bateras de autos similares. Las bateras estaban garantizadas para durar tres aos. Construyamos una tabla de frecuencias para lo siguientes datos:2. 2 3. 2 3. 4 3. 8 2. 5 2. 9 3. 3 3. 2 4. 7 3. 9 4. 1 3. 7 1. 6 3. 1 4. 3 3. 3 3. 1 4. 1 3. 8 3. 0 3. 5 3. 0 3. 1 4. 7 3. 4 3. 9 3. 7 1. 9 3. 2 4. 2 4. 5 2. 6 3. 3 3. 7 3. 6 3. 1 4. 4 3. 4 2.6 3.5</p> <p>Solucin: 9 Como k 1 + 3 . 3 l o 4 g ) 0 (= 6 . 2 , podramos considerar entre 6 7 intervalos. En este caso vamos a tomar 7 intervalos, lo que nos dara una amplitud de intervalo de: A = 4 .7 1 .6 = 0 .4 7 4 30 . 5</p> <p>Para tomar el punto inicial de la primera clase consideraremos el valor mnimo del conjunto de datos o sea 1.6, de esta forma la tabla de frecuencias estara definida por:Intervalos de clase [1.6 2.0] [2.1 2.5] [2.6 3.0] [3.1 3.5] [3.6 4.0] [4.1 4.5] [4.6 5.0]</p> <p>Lmites Exactos[1.55 2.05] [2.05 2.55] [2.55 3.05] [3.05 3.55] [3.55 4.05] [4.05 4.55] [4.55 5.05]</p> <p>Marca de Clase1 ( m i )1.8 2.3 2.8 3.3 3.8 4.3 4.8</p> <p>ni2 2 5 15 8 6 2 n = 40</p> <p>fi0.05 0.05 0.125 0.375 0.2 0.15 0.05 1.0</p> <p>N</p> <p>i</p> <p>Fi0.05 0.1 0.225 0.6 0.8 0.95 1</p> <p>2 4 9 24 32 38 40</p> <p>1</p> <p>Marca de Clase ( m i ): es el promedio de cada intervalo de clase o Lmite Exacto.</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>7</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>3. Representacin Grfica Es muy til clasificar los datos en categoras (o intervalos de clase) y determinar sus frecuencias pero muchos analistas prefieren una representacin grfica. El grfico ms comn es aquel donde las clases o categoras se representan en el eje horizontal y las frecuencias en el eje vertical. Los grficos ms utilizados son: Grfico circular o diagrama de torta Diagrama de barras Histograma Polgono de frecuencias Ojiva o polgono de frecuencias acumuladas 3.1. Grfico circular o diagrama de torta Este grfico consiste en desplegar las frecuencias absolutas ( n i ) o relativas ( f i ) en un crculo completo. Se aplica a datos cualitativos. El tamao de las porciones del crculo (ngulo) es proporcional a la frecuencia en cada categora. Ejemplo 5: Graficaremos los datos de la tabla del ejemplo 2 donde usaremos las frecuencias relativas, quedando el grfico como:Estado de los artculos</p> <p>6% 19% Piezas aceptadas Piezas rechazadas Piezas dudosas 75%</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>8</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>3.2. Diagrama de barras Un diagrama de barras es un mtodo habitual de presentar en forma grfica datos cualitativos. Cada barra representa la frecuencia (o conteo) de una categora. La altura de la barra es proporcional al nmero de elementos en esa categora. En general las barras se ponen en posicin vertical con la base en el eje horizontal de la grfica. Las barras pueden ir separadas, donde la separacin deja de manifiesto que se estn dibujando frecuencias de categoras distintas. Ejemplo 6.1: Usaremos el ejemplo 2, donde las categoras sern el estado de los artculos. El grfico de barras queda dado por:Estado de los artculos 70 60 50 40 30 20 10 0 Piezas aceptadas Piezas rechazadas Piezas dudosas 15 5 Estado de los artculos 60</p> <p>Ejemplo 6.2: La ciudad de procedencia de 36 alumnos de la Universidad de Talca se puede graficar como:</p> <p>Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.</p> <p>9</p> <p>FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA</p> <p>3.3. Histograma El histograma es la representacin grfica ms utilizada para datos agrupados en intervalos (se aplica solamente para datos cuantitativos). Un histograma es un conjunto de rectngulos, cada uno de los cuales representa un intervalo de agrupacin o clase. Sus bases son iguales a la amplitud del intervalo y las alturas se determinan de manera que su rea sea proporcional a la frecuencia de cada clase. Ejemplo 7: Utilizaremos al ejemplo 4, de modo que...</p>