Stats 101 Koudetat +

  • Published on
    28-Nov-2014

  • View
    213

  • Download
    1

DESCRIPTION

Significativit et A/B testing.

Transcript

1. Stats 101 : Signicativit statistique et A/B testing Anne-Claire Haury Koudetat + ! 21 Avril 2014 1 2. Objectifs Comprendre le principe des tests statistiques. Reprer diffrents problmes et choisir le test adquat. Etre en mesure de faire les calculs soi-mme. 2 3. Exemple 1 : rpondre une question Sur 1000 personnes (500 hommes, 500 femmes), on observe que les femmes gagnent en moyenne 2000 euros et les hommes 2100. Peut-on en conclure que les femmes gagnent moins que les hommes? Mme question si lon a 200 femmes et 200 hommes. Mme question si lon a 10 femmes et 10 hommes. De quoi la rponse va-t-elle dpendre ? 3 4. Exemple 2 : comparer 2 valeurs On veut tester laquelle des deux pages a le plus de succs. Source : experiencesolutions.co.uk Sur 1000 personnes layant vu, 23 ont cliqu sur le bouton rouge. Sur 500 personnes layant vu, 17 ont cliqu sur le bouton bleu. Peut-on afrmer que la page A a plus de succs? 4 5. Exemple 3 : poser diffrentes questions Peut-on afrmer quil y a plus dhommes que de femmes en informatique? Peut-on afrmer que linformatique est le domaine o il y a la plus grande diffrence entre le nombre dhommes et le nombre de femmes? Peut-on afrmer quen informatique la diffrence entre le nombre dhommes et le nombre de femmes est plus grande quen marketing? 5 6. La signicativit On se pose donc la question de la abilit dun chiffre et de la validit des conclusions. 6 7. Dnition Un cart est statistiquement signicatif 5% si la probabilit quon loberve par hasard est infrieure 5%. Intuitivement, cela a un rapport avec: La taille de lchantillon. Lhtrognit de lchantillon. La valeur de lcart. 7 8. La logique des tests 1. On part dune hypothse. 2. On regarde ce que le hasard donnerait. 3. On compare nos valeurs celles du hasard. 8 9. Variables alatoires Dnition (pas trs mathmatique) Une variable alatoire (v.a.) est une application dnissant lensemble des rsultats possibles pour une exprience donne. Exemples: X reprsente la variable alatoire lie lexprience "pile ou face": X prend les valeurs 0 ou 1. X reprsente la variable alatoire lie lexprience "valeur du QI": X prend ses valeurs entre 0 et 150. X reprsente la variable alatoire lie lexprience "poids": X prend ses valeurs entre 0 et +. 9 10. Loi de probabilit Dnition (pas mathmatique du tout!) Une loi (ou distribution) de probabilit reprsente le comportement dune variable alatoire. Exemple: X reprsente la variable alatoire lie lexprience "pile ou face": X prend ses valeurs entre 0 et 1. P(X = 0) = 0, 5 P(X = 1) = 0, 5 La somme des probabilits vaut 1. 10 11. Echantillon statistique (X1, ..., Xn) est un chantillon si les variables alatoires X1, ..., Xn sont indpendantes et suivent la mme loi. On dit alors quelles sont indpendantes et identiquement distribues (i.i.d.). Exemples: X1...Xn sont n lancers de pile ou face. Ils sont indpendants et ont tous la mme loi de probabilit. X1...Xn reprsentent le QI de n personnes. Ces personnes sont indpendantes et leur QI suit la mme distribution (assimile une loi normale). 11 12. Estimation de la moyenne Lesprance de la loi suivie par un chantillon est estime par la moyenne empirique: X = X1 + X2 + ... + Xn n = n i=1 Xi n Exemple: X1...X1000 sont 1000 personens qui cliquent (X = 1) ou ne cliquent pas (X = 0) sur votre CTA : la moyenne de ces valeurs estime votre taux de conversion. Si 45 personnes cliquent, le TC est estim 4, 5%. Mais que vaut cette estimation ? 12 13. Estimation de la moyenne (2) "Mon taux de conversion narrte pas de grimper, Ol!!! #KingOfTheWorld" 13 14. Estimation de la moyenne (2) "Et m****... #PrendreUnCoursDeStats..." 13 15. Qualit de lestimation 14 16. Nouvelle indication Pour tre sr de lestimation, il faut une variance la plus faible possible. 15 17. Estimation de la variance Si (X1, ..., Xn) est un chantillon, on estime sa variance 2 par la variance empirique: S2 = 1 n 1 n i=1 (Xi X)2 La variance dpend de n : plus n est grand, plus la variance est petite. Lcart-type est la racine carre de la variance. Il reprsente lcart moyen la moyenne. 16 18. En effet... 17 19. Pour tre sr(e) davoir compris Calculer la moyenne, la variance et lcart-type empiriques de lchantillon suivant: 1, 1, 0, 0, 0 18 20. Pour tre sr(e) davoir compris Calculer la moyenne, la variance et lcart-type empiriques de lchantillon suivant: 1, 1, 0, 0, 0 moyenne : x = 1 5 (1 + 1 + 0 + 0 + 0) = 0.4 18 21. Pour tre sr(e) davoir compris Calculer la moyenne, la variance et lcart-type empiriques de lchantillon suivant: 1, 1, 0, 0, 0 moyenne : x = 1 5 (1 + 1 + 0 + 0 + 0) = 0.4 variance : s2 = 1 4 (1 0.4)2 + (1 0.4)2 + (0 0.4)2 + (0 0.4)2 + (0 0.4)2 = 0.3 18 22. Pour tre sr(e) davoir compris Calculer la moyenne, la variance et lcart-type empiriques de lchantillon suivant: 1, 1, 0, 0, 0 moyenne : x = 1 5 (1 + 1 + 0 + 0 + 0) = 0.4 variance : s2 = 1 4 (1 0.4)2 + (1 0.4)2 + (0 0.4)2 + (0 0.4)2 + (0 0.4)2 = 0.3 cart-type : s = s2 = 0.55 18 23. La loi normale source : matplotlib.org Histoire de la loi normale : Loi des erreurs (Gauss, 1777-1855) Lhomme moyen (Qutelet, 1796-1874) Leugnisme (Galton, 1822-1911) 19 24. La loi normale (2) source : wikipedia.com Si X suit la loi normale N(, 2) X peut prendre toutes les valeurs entre et +. La courbe est symtrique. Lesprance de X vaut : la courbe est centre en . La variance de X vaut 2 (son cart-type vaut donc ). 20 25. La loi normale (3) source : statlect.com Si X suit la loi normale standard N(0, 1) : Partie rouge : la probabilit que X soit compris entre 2 et 2. On note: P(2 < X < 2) (= 0.95 environ). Laire totale sous la courbe vaut 1, cest--dire: P( < X < +) = 1. 21 26. Thorme central limite Un des plus grand rsultats statistiques. Il dit que votre moyenne estime se promne autour de votre vraie moyenne selon une loi normale. 22 27. Thorme central limite Un des plus grand rsultats statistiques. Ce qui revient dire que : 22 28. Thorme central limite Si (X1, ..., Xn) est un chantillon suivant une loi de moyenne et de variance 2, alors, si n est assez grand, leur moyenne empirique suit une loi normale N(, 2 n ) : X n N(, 2 n ) ce qui quivaut : n X n N(0, 1) Remarque: 2 n reprsente la abilit de lestimation. Plus n est grand, plus il est probable que la vraie moyenne soit bien approxime par X. 23 29. Cas dune proportion Dans le cas o on cherche estimer une proportion (un taux de conversion par exemple) quon appelle p, on a: n X p p(1 p) n N(0, 1) 24 30. Intervalle de conance Dans le cas dun chantillon (X1...Xn) de moyenne p, la moyenne thorique se trouve avec une certitude de 1 % dans lintervalle: [x t p(1 p) n , x + t p(1 p) n ] qui correspond : P(t < n X p p(1 p) < t) = 1 % Source : jussieu.fr t : la valeur aprs laquelle laire vaut /2%. t : la valeur avant laquelle laire vaut /2%. 25 31. Cas souvent rencontr Dans le cas dun chantillon (X1...Xn) de moyenne p, la moyenne thorique se trouve avec une certitude de 95% dans lintervalle: [x 1.96 p(1 p) n , x + 1.96 p(1 p) n ] Comme on ne connat pas p, on a deux choix: se mettre dans le worst-case scenario, savoir p = 0.5 : [x 1.96 0.25 n , x + 1.96 0.25 n ] remplacer p par son estimateur x si on pense quil nest pas trop mauvais: [x 1.96 x(1 x) n , x + 1.96 x(1 x) n ] 26 32. Retour lexemple Avec 500 points, x = 0.062 et la vraie proportion se trouve donc avec 95% de proba entre 0.018 et 0.105. (super info :)) Avec 2000 points, x = 0.059 et la vraie proportion se trouve donc avec 95% de proba entre 0.037 et 0.08. (dj mieux!) Avec 10000 points, x = 0.0049 et la vraie proportion se trouve donc avec 95% de proba entre 0.039 et 0.058. (encore plus prcis) 27 33. Les tests statistiques Puis-je afrmer que le taux de conversion p dun chantillon est diffrent de la valeur p0 avec seulement 5% de chances de me tromper? Je sais que la moyenne se trouve avec 95% de certitude (donc 5% de risque) entre : [x 1.96 0.25 n , x + 1.96 0.25 n ] Cest--dire que: P(1.96 < n X p 0.25 < 1.96) = 95% Je calcule t = n Xp0 0.25 car je suppose que p0 est la bonne proportion. Si t > 1.96 ou t < 1.96 : je suis dans lerreur, je rejette lhypothse et conclue quavec 95% de certitude, p = p0. 28 34. Les tests statistiques (2) Pour tre plus prcis: Si jafrme que le taux de conversion p dun chantillon vaut la valeur p0, avec quelle probabilit ai-je raison? Je calcule t = n Xp0 0.25 Si t < 0, je calcule : 2P(t < 1 n Xp 0.25 ) Si t > 0, je calcule 2P( 1 n Xp 0.25 < t) La valeur obtenue sapelle p-value. Plus elle est faible, plus je suis sre que lhypothse est fausse. 29 35. A/B testing : mme principe ! Puis-je afrmer que deux proportions p1 et p2 sont diffrentes avec seulement 5% de chances de me tromper? Mme principe. Cette fois, il faut calculer: x1, n1: moyenne et taille de lchantillon 1. x2, n2: moyenne et taille de lchantillon 2. la proportion moyenne pm = x1n1+x2n2 n1+n2 . alors, on calcule t = x1x2 pm(1pm) n1 + pm(1pm) n2 on compare t 1.96 et 1.96 comme dans lautre cas. si t > 1.96 ou t < 1.96 on conclue que les deux proportions sont diffrentes. calcul de la p-value idem que prcdemment. 30 36. Concrtement Page A : 23 clics sur 1000 visites. Page B : 17 clics sur 500 visites. 31 37. Concrtement Page A : 23 clics sur 1000 visites. Page B : 17 clics sur 500 visites. x1 = 0.023, n1 = 1000 x1 = 0.034, n1 = 500 pm = 0.02310000.034500 1000+500 = 0.026. t = 0.0340.023 0.025/1000+0.025/500 = 1.27 1.27 < 1.96 : les deux proportions ne sont pas signicativement diffrentes ! 31 38. Que tester ? Rgle dor : ne pas tester tout la fois. Essayer de garder la plupart des lments gaux par ailleurs. Exemples de choses tester : CTA Headline Images Texte Etre sr avant de lancer le A/B testing quon saura comment interprter les rsultats. 32 39. Peut-on tester 3 pages ou plus ? Oui ! Si cest bien ncessaire. Dans ce cas, le plus simple est de commencer par en tester deux et de tester la troisime (puis la quatrime, etc.) contre le vainqueur. 33 40. Always be closing Nimporte quel logiciel vous donnera un rsultat. Mais il ne vous dira pas si votre dmarche est correcte ou si votre thorie a une sens. Donc: Savoir ce quon cherche obtenir comme rsultat(s) Avoir une ide des calculs que fait la machine ! (Check) Dans le doute, demander lavis dun statisticien (ils sont presque tous normaux et sympas) 34