Big data medellin_seminario_internacional

  • Published on
    04-Jul-2015

  • View
    329

  • Download
    0

Embed Size (px)

DESCRIPTION

Conferencia en universidad de medellin, 6 de noviembre 2014. Big Data. Anlisis de grandes volmenes de datos en organizaciones y empresas

Transcript

<ul><li> 1. 1BIG DATAAnlisis de grandes volmenesde datos en organizacionesy empresasMEDELLIN (Colombia), 6 de noviembre, 2014Prof. Luis Joyanes Aguilar</li></ul><p> 2. CONTENIDO1. EL UNIVERSO DIGITAL DE DATOS : Larevolucin de los datos (los datos el nuevo mana, elnuevo petrleo)La revolucin digital de los datos (8 ZettaBytes en 2012,40 ZB en 2020).2. ANLISIS DE LOS DATOS3. ALMACENAMIENTO DE LOS DATOS(Data Centers) Virtualizacin y lanube Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 2 3. CONTENIDO2. CMO SE HA LLEGADO A ESTA SITUACIN? Social Media (Web 2.0, redes sociales) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014 Movilidad Realidad Aumentada y Geolocalizacin Cloud Computing Big data Internet de las cosas Ciudades inteligentes Impresin 3D Tecnologas wearables (ponibles, llevables) Pgina 3 4. CONTENIDOQU ES BIG DATA?TECNOLOGAS DE BIG DATA Bases de datos analticas (MPP, procesamientomasivo paralelo) Bases de datos in-memory Bases de datos NoSQL MapReduce . Google HDFS (GFS) --- Google Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014 Hadoop Lenguajes de programacin: R, Python el nuevo yprometedor lenguaje de programacin JuliaPgina 4 5. CONTENIDOCIENCIA DE DATOS (DATA SCIENCE)NUEVAS PROFESIONES . El cientfico de datos (data scientist) CTO (nuevo rol) versus CIO CDO (director de datos) CAO (analista de datos)EL FUTURO DEL BIG DATA est vinculadoa la Nube y ambas convergern enINTERNET DE LAS COSASBIBLIOGRAFA Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 5 6. Harvard Business Review, octubre 2012 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 6 7. Foreign Affairs, mayo 2013 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 7 8. Revista BBVA, innovation edge, junio 2013 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 8 9. CONSULTORA GARTNER, mayo 2014Segn Gartner similar a otras consultorascomo OBS, Forrester- estima que la inversinen servicios de Big Data ser de132.000 millones de dlares ( 96.000millones de euros) en 2015, lo quegenerar unos 4,4 millones de empleos entodo el mundo. Gracias al Big Data elProducto Interno Bruto (PIB) de la UninEuropea crecer un 1,9% adicional para2020. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 9 10. CONSULTORA GARTNER, mayo 2014Por sectores, las mayores inversionesen soluciones de Big Data se harn enComercio, Industria, Salud,Informacin y Comunicaciones, Bancay Finanzas, Seguros y AdministracinPblica. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 10 11. UNIN EUROPEA, 4 julio 2014 A cada minuto se genera en el mundo datos por elequivalente a 360.000 DVD. Como consecuencia de ello,el sector de datos crece un 40% al ao, siete vecesms rpido que el mercado global de la informacin y delas comunicaciones: aumentar 16.900 millones dedlares USA en el 2015 y los datos crearn cientos demiles de nuevos puestos de trabajo en Europa. Por todo ello, la apuesta por el Big Data por parte delsector pblico es un fenmeno en aumento hasta talpunto que la Comisin Europea ha solicitado alos gobiernos nacionales que abran losojos ante la revolucin del Big Data. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 11 12. UNIN EUROPEA, 4 julio 2014Neelie Kroes, vicepresidenta de la Comisin yresponsable de la Agencia Digital Europea,declar al respecto que: ya es hora de que nos centremos en losaspectos positivos de los macrodatos(big data). Estos suenan negativos yalarmantes, pero la mayora de las vecesno lo son. Los lderes necesitanaprovecharlos. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 12 13. UNIN EUROPEA, 4 julio 2014 Esta toma de posicionamiento de la Comisin se concreta enuna comunicacin al Parlamento titulada Hacia unaeconoma de los datos prspera dondetambin se establece la definicin que las institucioneseuropeas de Big Data:una gran cantidad de diferentes tiposde datos producidos a alta velocidad apartir de un gran nmero de diversostipos de fuentes. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 13 14. UNIN EUROPEA, 4 julio 2014Para manejar los conjuntos de datosmuy variables y en tiempo real de hoyen da, se necesitan nuevasherramientas y mtodos, comosoftware, algoritmos y procesadoresde gran potencia. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 14 15. 15IETEN Business&amp;TechnologySchoolBIG DATAEl universo digital dedatosProf. Luis Joyanes Aguilar 16. LA ERA DEL PETABYTE -2- . Wired ,julio 2008 (www.wired.com) 1TB (250.000 canciones)20 TB (fotos uploaded a Facebookcada mes) 120 TB (todos los datos e imgenes recogidos por el telescopioespacial Hubble) ; 460 TB (todos los datos del tiempo climtico enEEU compilados por el National Climatic Data Center); 530 TB(Todos los vdeos de YouTube); 600 TB (base de datos degenealoga, incluye todos los censos de EEUU 1790-2000)1 PB (datos procesados por losservidores de Google cada 75 minutos) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 16 17. LA ERA DEL PETABYTE -2- . Wired ,julio 2008 (www.wired.com) 1TB (250.000 canciones)20 TB (fotos uploaded a Facebookcada mes) 120 TB (todos los datos e imgenes recogidos por el telescopioespacial Hubble) ; 460 TB (todos los datos del tiempo climtico enEEU compilados por el National Climatic Data Center); 530 TB(Todos los vdeos de YouTube); 600 TB (base de datos degenealoga, incluye todos los censos de EEUU 1790-2000)1 PB (datos procesados por losservidores de Google cada 75 minutos) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 17 18. Tabla de unidades de almacenamiento(The Economist, febrero 2010): data, data everywherewww.economist.com/specialreports/displaystory.cfm?story_id=15557421 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 18 19. El universo digital de datos, IDC 2012 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pina 19 20. El universo digital de datos, 2013 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 20 21. EL UNIVERSO DIGITAL DE DATOS, 2013 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 21 22. EL UNIVERSO DIGITAL DE DATOS, 2013 En trminos de volumen, 40 ZB de datos sonequivalentes a lo siguiente: Existen 700.500.000.000.000.000.000 granos de arena en todas lasplayas del mundo (o setecientos trillones quinientos mil billones). Estosignifica que 40 ZB equivalen a 57 veces la cantidad degranos de arena de todas las playas del mundo. Sipudiramos guardar los 40 ZB en los discos Blue-ray de la actualidad,el peso de dichos discos (sin fundas ni estuches) sera equivalente a424 portaaviones Nimitz. En 2020, 40 ZB sern 5.247 GB por personaa nivel mundial. Referencia: America Economia:http://tecno.americaeconomia.com/noticias/el-gran-universo-digital-la-data-crece-mas-rapido-de-lo-que-podemos-protegerla Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 22 23. EL UNIVERSO DIGITAL DE DATOS, 2013 EMC Corporation PUBLIC en diciembre de 2013, suestudio anual sobre el Universo Digital de IDC,patrocinado por EMC: Big Data, Bigger DigitalShadows, and Biggest Growth in the Far East. Elestudio arroj que, a pesar de la expansin sinprecedentes del Universo Digital debido a elBig Data que se generan a diario porpersonas y mquinas, IDC estima quesolo 0,5% de los datos mundiales seanalizan. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 23 24. LA ERA DEL EXABYTE/ZETTABYTE CISCOLA ERA DEL EXABYTE, CISCO . EstudioCisco Visual Networking Index (VNI)2007-2012. Trfico mundial de datos.LA ERA DEL ZETTABYTE:Cisco VNI:Forecast and Methodology 2012:22017. Trfico mundial de datos(publicado en 2013) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 24 25. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 25 26. Qu sucede en 1 en INTERNET (2012) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 26 27. Informe de GP Bullhound, el banco deinversin lder en Europa (2012 vs 2013) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 27 28. http://blog.qmee.com/qmee-online-in-60-seconds/ (Noviembe-2013 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 28 29. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 29 30. LA AVALANCHA DE DATOSTwitter: (redes sociales) 90 millones de tuits (tweets) por da que representa 8 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Terabytes.Boeing: (industria) Vuelo transocenico de un jumbo puede generar 640Terabytes.Wal-Mart: (comercio) 1 milln de transacciones por hora que se estima quealimenta una base de datos de 2.5 petabytes.Google procesa al da 20 PB de informacinPgina 30 31. LA AVALANCHA / DILUVIO DE DATOSEl 90% de los datos acumulados en todo elmundo se han creado en los dos ltimosaos. Cada da se escriben 400 millones detuits, cada minuto se crean 600 nuevosblogs y cada segundo se registran 10.000transacciones de pagos con tarjetas.Objetos cotidianos como los carros, losrelojes o las gafas estn comenzando aconectarse a Internet para alimentarnuevos servicios que requieren unconstante intercambio de informacin. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 31 32. LA AVALANCHA / DILUVIO DE DATOSLos Ayuntamientos siembran las calles consensores de recogida de datos para facilitar lavida de los ciudadanos. Cada da se recogen 2,5trillones de bytes de datos, y los directivos de lasempresas apenas pueden manejar la mitad de losgenerados en su entorno porque el 80% de ellosestn desestructurados. El nmero de dispositivos en red duplicar ala poblacin mundial en 2015 y los datos quegeneren se convertirn en informacin utilizada por lasempresas para anticipar las necesidades de losconsumidores. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 32 33. LA AVALANCHA / DILUVIO DE DATOSLa respuesta para ordenar este caos es bigdata, la nueva herramienta parasistematizar los datos procedentes decualquier soporte incluyendo imagensonido, fotos, textos y convertirlos deforma automtica en informacin.Big data ayud a ganar las elecciones aBarak Obama y ha reducido de das aminutos la deteccin de uso de informacinprivilegiada en Wall Street Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 33 34. LA AVALANCHA DE DATOS Segn Eric Schmidt, presidente ejecutivo de Google, entre elorigen de la tierra y el 2003 se crearon cinco exabytes deinformacin. Hoy en da creamos la misma cifra cada dosdas2. Las previsiones aseguran que en esta dcadacrearemos alrededor de 35 zettabytes (40 ZB, informe dediciembre de 2012) Segn la consultora IDC, cifran en 1,8 Zettabytes lainformacin generada en 2011. Si tratramos de almacenaresa informacin en iPads (del modelo de 32GB)necesitaramos 57.500 millones; puestos unos al lado deotro formaramos una lnea que dara 3 veces la vuelta almundo y, si tratramos de apilarlos, la montaa resultantesera 25 veces ms alta que el monte Fuji. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 34 35. LA ERA DEL EXABYTE/ZETTABYTE CISCOLA ERA DEL EXABYTE, CISCO . EstudioCisco Visual Networking Index (VNI)2007-2012. Trfico mundial de datos.LA ERA DEL ZETTABYTE: Cisco VNI:Forecast and Methodology 2012-2017. Trfico mundial de datos(publicado en 2013) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 35 36. 36BIG DATA:FundamentosProf. Luis Joyanes Aguilar 37. MAPA DE ETIQUETAS DE BIG DATA Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 37 38. DEFINICIN DE BIG DATA: GartnerGartner* define Big data como unconjunto de datos de gran volumen,de gran velocidad y procedente degran variedad de fuentes deinformacin que demandan formasinnovadoras y efectivas de procesar lainformacin www.gartner.com/id=2100215 Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 38 39. DEFINICIN DE BIG DATA: GartnerBig Data es la capacidad de analizargrandes volmenes de datos dediferentes tipos y a gran velocidad,para mejorar los procesos de negocioactuales o crear nuevas reas deoportunidad. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 39 40. DEFINICIN DE BIG DATA: IBM Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 40 41. DEFINICIN DE BIG DATA: IBM VOLUMEN de datos procesados por lasempresas ha crecido significativa yexponencialmente.Google procesa 20 petabytes al daEn 2020 se esperan 42.000 millonesde pagos electrnicos.La Bolsa de Nueva York genera UNterabyte de datos al daTwitter genera 8 TB Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 41 42. DEFINICIN DE BIG DATA: IBMVELOCIDAD. Rapidez con la que se accedea los datos. La velocidad del movimiento,proceso y captura de datos, dentro y fuerade la empresa ha aumentadoconsiderablemente.Flujo de datos a alta velocidad.eBay se enfrenta al fraude a travsde PayPal analizando cinco millonesde transacciones en tiempo real al da. Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 42 43. DEFINICIN DE BIG DATA: IBMVARIEDAD: Big data es cualquier tipo dedato estructurado y no estructurado - talescomo texto, datos de sensores, datos entremquinas (M2M), archivos logs, audio,vdeo, flujos de clicks, XML, datos enstreaming, cotizaciones burstiles, mediossociales,Una creciente variedad de datosnecesitan ser procesados y convertidos ainformacin Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 43 44. DEFINICIN DE BIG DATA: IBM (5V-6V) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 44 45. Estructura de Big Data: tipos de datosEstructuradosNo estructurados No estructurados (texto, datos de vdeo, datos de audio,,,) Semiestructurados ( a veces se conocen comomultiestructurados. Tienen un formato y flujo lgico de modoque pueden ser entendidos pero el formato no es amistoso alusuario(HTML. XML, datos de web logs) Normalmente, se suelen asociar los datosestructurados a los tradicionales y los datos noestructurados a los Big Data Objetivo principal de los sistemas de gestin dedatos: Integracin de datos estructurados y noestructurados Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 45 46. Fuentes de Big Data Herramientas para anlisis de datos en grandesvolmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012):Web y Social media Machine-to-Machine (M2M, Internet delas cosas) Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014 Biometria Datos de transacciones de grandes datos(salud, telecomunicaciones) Datos generados por las personas(humanos)Pgina 46 47. Sunil Soares (2003). Big Data Governance Emerging Luis Joyanes AguilarMedelln, Colombia6 de noviembre, 2014Pgina 47 48. APLICACIONES DE BIG DATA Los Gigantes de Internet como Google, Amazon o Facebookbasan su xito en el valor de los big data sin ellos tendranserias dudas de supervivencia.Big data es el nuevo petrleo, oro o man dela dcada. IBM, SAP ,Oracle, Cisco los hansistematizado para adaptarlas a todo tipo deempresas. Google comenz a gestionar Big Data desde sunacimiento en 1998, para indexar sus bsquedas Big data ha saltado de Internet al mu...</p>