Algoritmo EM.pdf

  • Published on
    28-Nov-2015

  • View
    43

  • Download
    12

Embed Size (px)

Transcript

  • CHAVEZ ABARCA

    VARAS VILLAFUERTE

    Esperanza - Maximizacin

    U N I V E R S I D A D N A C I O N A L D E I N G E N I E R I A

  • El Algoritmo EM: Visin General

    Tcnica general para encontrar EMV para modelos paramtricos de data incompleta.

    Idea Intuitiva:

    contiene informacin relevante para estimar .

    nos ayuda a obtener valores de los .

    El Algoritmo EM se enfoca en las recurrencias anteriores.

    Yfaltante

    Yfaltante

  • Estimacin por Mxima Verosimilitud

    Vector Aleatorio X con f.d.p.

    Vector de parmetros desconocidos en

    Funcin de Verosimilitud para obtenida de la data

    observada:

    Ecuacin Log-Verosimilitud

    De cuyas races obtenemos el EMV .

    = (1; : : : ; d)0

    g(x; )

    L() = g(x; )

    log L()

    = 0

    ^

  • Problema de Data Incompleta

    Yobservada

    Yfaltante

    Data Completa

    Disponible

    No Disponible

    Situaciones de Data Incompleta:

    Explicitas

    Data Faltante Distribuciones Truncadas Observaciones Agrupadas

    Implcitas

    Efectos Aleatorios Mixturas Convoluciones Modelos Log-Lineales Clases Latentes Estructuras Variables Latentes

  • Formulacin del Algoritmo EM

    Definicin de variables y trminos:

    : vector n-dimensional de cantidades observadas.

    : vector m-dimensional de cant. no observadas.

    : data completa.

    : funcin de densidad de Y.

    : densidad condicional de la data faltante dada la observada (que tambin depende de ).

    Yobs 2 Rn

    Yfal 2 Rm

    Y 2 Rn+m

    p(Y j) = p(Yobs; Yfalj); 2

    p(YfaljYobs; )

  • Formulacin del Algoritmo EM

    Para cualquier problema de data incompleta:

    Log-Verosimilizando cada termino:

    Elementos:

    : log-verosimilitud de la data completa

    : log-verosimilitud de la data observada

    : distribucin predictiva de la data faltante dado .

    p(Y j) = p(Yobsj)p(YfaljYobs)

    l(jY ) = l(jYobs) + log p(YfaljYobs; )

    l(jY )

    l(jYobs)

    p(YfaljYobs; )

  • Formulacin del algoritmo EM

    es desconocido, luego tomamos promedios sobre la distribucin predictiva .

    es un estimado del parmetro desconocido .

    Del promedio:

    Yfal

    p(YfaljYobs;(t))

    (t)

    Q(j(t)) = l(jYobs) + H(j(t))

    Q(j(t)) = EYfaljYobs;(t) [l(jY )]

    H(j(t)) = EYfaljYobs;(t) [log p(YfaljYobs; )]

    EYfaljYobs;[l(jYobs)] = l(jYobs)

  • Implementacin del Algoritmo EM

    1. Iniciar seleccionando un arbitrario.

    2. Para

    1. Paso E: Evaluacin de

    2. Paso M: Seleccin de del espacio parametrl que maximiza , esto es:

    (0)

    Q(; (j1)) = EYfaljYobs;(j1) [l(; Y )]

    (j+i)

    Q(; (j1))

    Q((j+1); (j)) Q(; (j)); 8 2

    j = 1;2; : : :

  • function teta=em2(y1,y2,y3,y4,tol, start)

    n=y1+y2+y3+y4;

    tetaactual = start;

    teta= tetaactual;

    tetalast =0;

    iter =0;

    while (abs (tetalast-teta)>tol )

    [x1,x2]=estep(tetaactual,y1);

    teta= mstep (x2, x1, y4 ,n);

    tetalast = tetaactual;

    tetaactual =teta;

    iter = iter+1;

    end

    disp('numero de iteraciones');

    disp(iter);

    function [x1,x2]=estep(tetaactual,y1)

    x1=(2*y1)/(2+tetaactual );

    x2=y1-x1;

    function tetanuevo = mstep (x2,x1,y4,n)

    tetanuevo =(x2+y4)/(n-x1);

  • Ejemplo2: RESPUESTA ALEATORIZADA

    Una proporcin (teta) de individuos pertenecientes a cierta categora

    estigmatizada debe ser estimada. Para evitar la no respuesta (y su

    consecuente perdida de informacin) un nuevo esquema de muestreo es

    propuesto. Una pregunta alternativa no relacionada a la principal con

    proporcin conocida de SI es introducida junto con la garanta de que la pregunta seleccionada ser conocida solamente por el que responde. La

    idea es incrementarle la confianza para que nos de la respuesta correcta sin

    revelarnos su verdadero estatus.

    La probabilidad de la respuesta SI sera

    Donde teta es la probabilidad de seleccionar la pregunta de inters y teta(A)

    es la probabilidad conocida de un SI a la pregunta alternativa y pi es la probabilidad de seleccionar la pegunta de inters. En una muestra de 150

    individuos, 60 respuestas SI fueron obtenidas. Basadas en un procedimiento con pi igual a 0.7 y teta(A) igual a 0.6

  • Usando el algoritmo EM tenemos que de la data observada es X es el

    numero de SI respondidos y X se distribuye como una binomial:

    Asimismo, de los datos no observados es Z el numero de individuos que

    seleccionen la pregunta de inters .

    Entonces tenemos que Z se distribuye:

  • function teta=em2(n,x,tetaA,pi,tol, start)

    tetaactual = start;

    teta= tetaactual;

    tetalast =0;

    iter =0;

    while (abs (tetalast-teta)>tol )

    z=estep(tetaactual,x,pi,tetaA);

    teta= mstep (z,pi,tetaA,n,x);

    tetalast = tetaactual;

    tetaactual =teta;

    iter = iter+1;

    end

    disp('numero de iteraciones');

    disp(iter);

    function z=estep (tetaactual,x,pi,tetaA)

    z=(x*tetaactual*pi)/((pi*tetaactual)+((1-pi)*tetaA));

    function tetanuevo = mstep (z,pi,tetaA,n,x)

    tetanuevo =(z*(1-(tetaA*(1-pi))))/(z+((n-x)*pi));

  • GRACIAS

    TOTALES

    EMEM2