COLLOQUE GREC-O Systémique, Complexité,

  • Published on
    06-Aug-2015

  • View
    133

  • Download
    1

Embed Size (px)

Transcript

  1. 1. 4E - Colloque GREC-O 24 et 25 juin 2015 Les systmes complexes face au tsunami exponentiel du numrique Valeur et Vracit de la donne Thierry Berthier & Bruno Teboul
  2. 2. Thierry Berthier est Maitre de confrences en mathmatiques l'Universit de Limoges. Il effectue ses recherches au sein de la Chaire de Cyberscurit & Cyberdfense, Saint-Cyr - Thales Sogeti et est cofondateur du site danalyse stratgique EchoRadar et du blog Cyberland.
  3. 3. Bruno Teboul est Directeur Scientifique, R&D et Innovation du groupe Keyrus, membre de la Gouvernance de la Chaire Data Scientist de lEcole Polytechnique et enseignant-chercheur l'Universit Paris-Dauphine.
  4. 4. Selon Gartner et IBM, les donnes massives sont caractrises par 6 V : - Volume - Varit - Vlocit - Visibilit - Valeur - Vracit Nous allons voquer la Valeur et la Vracit dune donne
  5. 5. Premiers constats Les 4 V (Volume, Varit, Vlocit, Visibilit) sont assez facilement mesurables. Mesurer prcisment la valeur et la vracit dune donne, cest en gnral un problme difficile. Valeur et Vracit de la donne dpendent fortement du contexte et de linstant dvaluation. La Valeur et la Vracit dune donne sont parfois indpendantes.
  6. 6. Premiers constats Notre production atteindra les 40 Zo de donnes en 2020 ( 1 Zo = 10 puissance 21 octets ). Nos projections algorithmiques volontaires ou systmiques contribuent au dluge des donnes. Elles tmoignent de la fusion de lespace physique avec le cyberespace. Linformation ubiquitaire renforce cette tendance. Les projections algorithmiques des utilisateurs ont une valeur pour le data scientist.
  7. 7. Premiers constats La fragmentation des projections algorithmiques de lutilisateur fragmente aussi leurs valeurs.
  8. 8. 1 Valeur instantane dinterprtation ou valeur dimpact dune donne
  9. 9. Un zeste de formalisme Dfinition dune donne : Cest un ensemble fini de mots binaires. Un mot binaire est une suite finie forme de 0 et de 1. On note dsormais D une donne dfinie par : D = {M1,M2,......,Mn} o les Mj sont des mots binaires avec Mj = b1b2.....bk et bi = 0 ou 1. Dfinition dun contexte : On parlera de contexte C pour dsigner un ensemble d'infrastructures humaines, physiques et algorithmiques lies entre elles par des relations et des transferts d'information assurant une cohrence systmique globale. Un contexte est constitu de groupements humains et de systmes physiques et algorithmiques assurant son interconnexion.
  10. 10. Valeur instantane dinterprtation dune donne Fixons maintenant la notion de valeur dinterprtation instantane dune donne D par un programme P relativement au contexte C : Val t ( D / P, C) Si D est une donne accessible au contexte C, et P un programme prenant D en entre et calculant P< D > sur un systme de calcul S du contexte, on notera alors Val t ( D / P, C) la valeur l'instant t de D relativement au contexte C et au programme P exploitant D sur C. Val t ( D / P, C) est une valeur numrique instantane, positive ou nulle dpendant du contexte et du programme d'exploitation.
  11. 11. Un premier exemple illustrant la Valeur avec Vracit La vente de donnes clients par Microsoft au FBI : Le 21 janvier 2014, la SEA (Syrian Electronic Army) publie sur son site web la copie de nombreuses factures Microsoft envoyes au FBI ainsi que des listings de donnes personnelles vendues. Celles-ci concernent les utilisateurs d'Outlook ou de Skype et contiennent l'identit, l'identifiant, l'adresse IP, le nom de compte en hotmail.com et le mot de passe. D'aprs les factures publies par la SEA, le cot unitaire d'un jeu de donnes concernant un utilisateur varie entre 50 dollars et 200 dollars en fonction du contenu transmis. La vracit des donnes clients vendues tait certifie par Microsoft.
  12. 12. Un premier exemple illustrant la Valeur avec Vracit La vente de donnes clients par Microsoft au FBI : La valeur instantane d'une donne client D vendue par Microsoft au FBI vrifie : Val t ( D / P, C) = 200 USD pour t > 0 sur le contexte de production Microsoft. P est un programme de structuration (ou de mise au format) et de lecture de la donne. V0 est le cot de structuration, de mise au format et de stockage de la donne pour Microsoft. V1 dsigne le prix de vente unitaire par Microsoft au FBI. V est la valeur rsiduelle de la donne.
  13. 13. Un second exemple illustrant la Valeur sans la Vracit Lhistoire du faux tweet de la SEA qui valait 136 milliards Le 24 avril 2013, la SEA attaque le compte Twitter de l'agence Associated Press (AP). Elle en prend momentanment le contrle et publie 13h07 le message suivant : Breaking : Two Explosions in the White House and Barack Obama is injured Les 1.9 millions d'abonns au compte Twitter d'Associated Press reoivent le faux message post par la SEA en le considrant comme authentique. La raction des marchs financiers est presque immdiate : entre 13h08 et 13h10, l'indice principal de Wallstreet, le Dow Jones (DJIA) perd 145 points soit l'quivalent de 136 milliards de dollars (105 milliards d'euros) en raison notamment du trading haute frquence (HFT) qui a interprt et ragi au faux tweet. Les actions Microsoft, Apple, Mobil perdent plus de 1% presque instantanment. Quelques minutes plus tard, Associated Press reprend le contrle de son compte et publie immdiatement un tweet annonant que le message prcdent tait un faux et qu'il rsultait du piratage de son compte.
  14. 14. Valeur dimpact sans vracit Le faux tweet de la SEA qui valait 136 milliards de dollars
  15. 15. Valeur dimpact sans vracit
  16. 16. Valeur dimpact sans vracit A l'instant t = 0, le tweet de la SEA est publi sur le compte AP et reste accessible et crdible durant quatre minutes. A l'instant t1 , AP et la Maison Blanche publient un dmenti qui annule immdiatement la valeur instantane de la donne D. V0 dsigne la valeur de production et d'insertion de la donne sur le compte d'AP. Cette valeur tient compte du cot global du piratage du compte par la SEA. V1 est la valeur maximale de la donne avant la reprise de contrle du compte AP. Elle peut prendre en compte la valeur d'impact du faux tweet sur les marchs.
  17. 17. Valeur dimpact sans vracit Ce que nous disent ces exemples : La valeur dimpact dune donne peut tre indpendante de sa Vracit. Cest bien la confiance que lon accorde une donne qui lui permet de fonder sa valeur. Interroger la donne, cest dabord valuer la confiance quelle suscite, mesurer sa vracit puis sa valeur sur un contexte.
  18. 18. 2 Valeur dun ensemble massif de donne (approche par le gain)
  19. 19. Do viennent les donnes massives ?
  20. 20. Dfinir la valeur des donnes massives par le gain L'ide : Pour un jeu de donnes massives D, on mesure le gain obtenu sur une ligne de contrainte L aprs exploitation de D via un systme de calcul S. Une ligne de contrainte L pour une entreprise, une institution ou un laboratoire peut tre temporelle (le temps ncessaire un processus de production), spatiale (une distance, une surface prospecter). Elle peut concerner un effectif (le nombre d'ingnieurs sur un projet) ou un cot de dveloppement. Elle est mesure par CL(t). Le gain obtenu sur la ligne de contrainte L aprs exploitation de D par S s'crit : GL( D , S ) = CL ( aprs exploitation de D ) CL ( avant exploitation de D )
  21. 21. Dfinir la valeur des donnes massives par le gain La valeur du jeu de donnes D sur la ligne de contrainte L est dfinie par le maximum des gains obtenus lorsque l'on fait varier le systme de calcul S (algorithmes et machines) : VL( D ) = kL Max S ( GL( D , S ) ) Le facteur kL est une constante dpendant de la ligne de contrainte L. C'est un coefficient de normalisation dfini pour chaque ligne de confiance. Si plusieurs lignes de contraintes sont impactes par le traitement de D, kL peut aussi reprsenter le poids que l'on donne L par rapport aux autres lignes de contraintes. Il permet alors de hirarchiser les lignes de contraintes.
  22. 22. Dfinir la valeur des donnes massives par le gain Notons que calculer la valeur prcise de VL(D) reviendrait faire tourner tous les systmes de calcul S sur l'ensemble de donnes D et slectionner celui (ou ceux) qui produisent le meilleur gain sur L. Il s'agit donc d'une dfinition asymptotique de la valeur d'un ensemble de donnes avec laquelle on se contente d'une approximation approchant VL(D) par valeurs infrieures. Donnons prsent deux cas concrets pour lesquels on approche la valeur d'un ensemble de donnes dans un contexte de traitement big data.
  23. 23. Lexemple des oliennes VESTAS
  24. 24. Lexemple des oliennes VESTAS Lanalyse Big Data a permis Vestas doptimiser son processus didentification des meilleurs emplacements pour implanter ses oliennes . Lanalyse des donnes a permis daugmenter la production dlectricit et de rduire les cots nergtiques. Grce aux donnes massives, Vestas est en mesure de dcrire avec prcision le comportement du vent et de fournir une analyse de rentabilisation solide ses clients. Le systme Big Data VESTAS (IBM) induit une rduction de 97 % du temps de rponse sur les prvisions oliennes passant de plusieurs semaines seulement quelques heures aujourdhui. Il rduit le cot de production par kilowattheure pour les clients et rduit le cot et lencombrement informatique avec une diminution de 40 % de la consommation nergtique. La base de donnes Vestas-Eoliennes atteint les 24 pta-octets .
  25. 25. Lexemple des oliennes VESTAS Le logiciel IBM InfoSphere BigInsights fonctionnant sur un systme IBM System x iDataPlex assiste VESTAS dans sa gestion des donnes mtorologiques et de localisation. Ainsi, lentreprise a diminu la rsolution de base de ses grilles de donnes oliennes qui passent dune aire de 27 x 27 kilomtres 3 x 3 kilomtres aprs exploitation du jeu de donnes. Ceci reprsente une rduction de 90% de lincertitude. Ce gain donne aux dirigeants un aperu imm