Big data presentación

  • Published on
    05-Dec-2014

  • View
    314

  • Download
    0

Embed Size (px)

DESCRIPTION

 

Transcript

<ul><li> 1. Big Data Seminario BIG DATA Maestra en Ciencias de la Informacin y las Comunicaciones Universidad Distrital Francisco Jos de Caldas Bogot[, Colombia Por: Edgar Garrido and Julio Baracaldo </li> <li> 2. Que es Big Data? Es el termino dado a una coleccin de datos tan grandes y complejos que es difcil procesarlos usando herramientas de gestin de bases de datos convencionales o utilizando aplicaciones tradicionales para procesamiento de datos. Los datos tienen tamaos muy grandes; se mueven muy rpido o no encajan dentro de las restricciones de las arquitecturas tradicionales de bases de datos. Para ganar valor con estos datos, se debe seleccionar una manera alternativa de procesarlos. (tratamiento y anlisis) El tratamiento de un mayor nmero de datos puede conducir a un ms adecuado anlisis, lo cual puede conducir a una toma de decisiones ms acertada. Mejores decisiones pueden significar mayor eficiencia operacional, reduccin de costos y de riesgos. Big Data puede llegar a ser tan importante para los negocios y para la sociedad como ha llegado a serlo la Internet. </li> <li> 3. Por qu y para qu usar Big Data? Ha emergido como el principal ingrediente para el xito de muchos negocios Esta empezando a ser usado por cientficos, ingenieros, todo tipo de profesionales y por todos los entes gubernamentales. Se puede capturar y analizar cualquier tipo de dato, sin requerirse una estructura especifica. Es posible extraer de dentro de estos datos, patrones valiosos e informacin previamente escondida, que no ha sido usada debido a la gran cantidad de trabajo requerido para su extraccin. Permite anlisis oportunos y rentables de datos y creacin de nuevos productos. </li> <li> 4. Caractersticas Big Data: Volumen, Velocidad y Variedad Volumen Muchos factores contribuyen a incrementar el volumen de los datos: Datos de transacciones han sido almacenados a travs de aos. Datos no estructurados son transmitidos a travs de medios sociales. se ha incrementado la cantidad de sensores que son almacenados por diferentes dispositivos Se pueden almacenar ms datos por que los dispositivos de almacenamiento son menos costosos. Permite la creacin de mejores modelos al tener mayor cantidad de datos y mejora en la toma de decisiones. Se almacena cualquier cosa: datos ambientales, financieros, mdicos, de vigilancia, y muchos ms. </li> <li> 5. Caractersticas Big Data: Volumen, Velocidad y Variedad Velocidad Variedad Tasa de crecimiento a la cual fluyen los datos en la organizacin. Datos estructurados, semiestructurados y no estructurados La velocidad en que los datos son desaminados o los datos cambian o son refrescados. La naturaleza dinmica de los datos demanda mayor cantidad de potencia de computacin, diseos especficos y veloz interoperabilidad entre redes, que se puede ver reflejado en la toma de decisiones. Variedad de fuentes de datos sensores, dispositivos inteligentes, redes sociales, paginas web, logs, ndices de bsqueda, email, documentos, GPS, etc. Variedad representa todos los tipos de datos Mas del 80% de los datos alrededor del mundo son no estructurados o semiestructurados. Para capitalizar la oportunidad de Big Data, las empresas deben ser capaces de analizar todo tipo de dato, estructurado o no estructurado. Se pasa de procesamientos en bach a streaming data </li> <li> 6. Tipos de Datos en Big Data </li> <li> 7. Cuando considerar una Solucin de Big Data? Big Data es una solucin ideal no solamente datos estructurados, sino tambin semiestructurados y no estructurados desde una variedad de fuentes. Big Data es una solucin ideal cuando todos, o la mayora, de datos necesitan ser analizados versus un muestreo de datos; o un muestreo de datos no es casi tan efectivo como un conjunto de datos grande desde los cuales el anlisis se obtiene. Big Data es una solucin ideal para anlisis iterativo y exploratorio cuando mediciones del negocio en los datos no es predeterminado. </li> <li> 8. Not Only SQL - NoSQL NoSQL se refiere a sistemas de gestin de datos no relacionales. Las bases de NoSQL no son construidas con tablas. Generalmente no utilizan SQL para la manipulacin de datos. Utilizadas cuando se trabaja con gran cantidad de datos, cuando la naturaleza de los datos no requiere un modelo relacional. Los sistemas NoSQL son distribuidos, diseados para bases de datos no relacionales, que altamente escalables y para procesamiento en paralelo a travs de muchos servidores. Soportan mltiples actividades como analtica predictiva y exploratoria. No utilizadas en sistemas de misin critica OLTP Almacenamiento de datos orientados a columna y arquitecturas distribuidas o a travs del empleo de tecnologas como procesamiento en memoria, multiprocesamiento simtrico (SMP) y procesamiento paralelo masivo (MPP). </li> <li> 9. Quienes usan DB NoSQL Organizaciones que manejan grandes volumenes de datos no estructurados se estn moviendo hacia bases de datos no relacionales. Quienes se enfocan en procesamiento analtico. De grandes conjuntos de datos. Quienes requieren de aplicaciones tales como Big Data Analytics. Redes sociales, Cassandra, BigTable y Hbase son tipos de base de datos NoSQL. </li> <li> 10. Caractersticas de las Bases de datos NoSQL Fuerte consistencia: Todos los clientes ves la misma versin de los datos, an es actualizaciones de conjunto de datos. Alta Disponibilidad: todos los clientes pueden siempre hallar al menos una copia de los datos requeridos. Tolerancia-Particin: El total del sistema mantiene sus caractersticas aun cuando estn desplegados en diferentes servidores, trasparente al cliente. El teorema de CAP postula que solamente dos de los tres diferentes aspectos de escalamiento pueden ser obtenidos completamente. </li> <li> 11. Clasificacin de las Bases de Datos NoSQL Se clasifican en tres tipos: (Segn Leavitt) Almacenamiento Bases Key-value (ej. SimpleDB) de datos orientadas a la columna (ej. Cassandra, Hbase, Big Table) Almacenamiento basado en documentos (ej: CouchDB, MongoDB) Se clasifican en cuatro categoras: (segn otros autores) Almacenamiento Key Value Almacenamiento Documentos Wide-Column Bases (column Family) de Datos Grafo </li> <li> 12. Base de datos Almacenamiento key-Value Estos tems usan identificadores alfanumricos (keys) y un valor asociado. Son tablas stadalone referidas como (hash tables). Los valores pueden ser simple string de text o listas y conjuntos. La bsqueda de datos usualmente es ejecutada contra las llaves (keys) esta bsqueda es muy rpida. Ejemplos de uso: Por Amazon en sus sistema K-V, Dynamo en su carrito de compras y por LinkedIn con Voldemort, Redis, BerkeleyDB. </li> <li> 13. Bases de Datos Documentales Diseado por Lotus Notes para almacenar documentos Documentos codificados en formatos XML, JSON o BSON. En la columna valor (value) de esta base de datos Document contiene datos semiestructurados (pareja name/value), especialmente la pareja corresponde un documento, a diferencia del almacenamiento Key-Value. En una columna se pueden almacenar miles de atributos y el numero de atributos grabado puede variar de una fila a otra. Ejemplos de uso: almacenamiento documentos de texto, mensajes de corre electrnico, documentos XML, etc. CouchDB (JSON) y MongoDB (BSON) son proyectos de cdigo abierto que utilizan estos tipos de base de datos. </li> <li> 14. Bases de datos Columnares (Wide-Column) Una estructura de datos orientada a la columna que acumula mltiples atributos por llave. Es una dase de datos para almacenamiento distribuido, altamente escalable, procesamiento de datos orientada a bach: clasificacin, el anlisis sintctico, conversin (entre Hexadecimal, binario y decimal) algoritmos crunching, etc. Usada para analtica predictiva y exploratoria. MapReduce es un mtodo de procesamiento en bach, por el cual Google redujo el rol de MapReduce moverse ms cerca ndices streaming/real-time in Caffeine, la ultima infraestructura de bsqueda. Ejemplo de uso: BigTable (Google), Hypertable, Cassandra (Facebook, twitter), SimpleDB (Amazon), DynamoDB. </li> <li> 15. Base de Datos Grafo (Graph) Remplaza tablas relacionales, grafos relacional estructurados de pareja de valores: key-value. Es similar a las bases de datos orientada a objetos ya que los grafos son representados como una red de nodos orientado a objetos (objetos conceptuales), relacin de nodos (edges) y propiedades (atributos objeto expresados como una pareja key-value). Esta base de datos es til cuando se esta interesado en relaciones de datos que estn en datos de ella misma. (ej: generar recomendaciones en redes sociales). No estn optimizadas para consultas sino para hallar relaciones. Ejemplo de uso: Neo4j. InfoGrid, Sones GraphDB, allegroGhaph, InfinityGraph. </li> <li> 16. Estado Actual de Bases DE datos NoSQL </li> <li> 17. Que es MapReduce? Es un modelo de programacin para distribuida (desarrollada por Google). computacin La aplicaciones que dentro del framework de MapReduce pueden automticamente ser distribuidas a travs de mltiple computadores sin necesidad de que el desarrollador escriba cdigo personalizado para sincronizacin y paralelismo. Es usada para ejecutar tares sobre grandes conjuntos de datos, los cuales podran ser demasiado grandes para ser manejados por una sola maquina. </li> <li> 18. Cmo trabaja MapReduce? En el framewok MapReduce, el desarrollador tiene que especificar una funcin de mapeo (map) y otra de reduccin (reduce). La funcin de mapeo es invocada con un par de llaves de tipo {key:value} para cada dato almacenado y retorna un valor intermedio {key:value}, el cual es usado par la funcin de reduccin para unir todos los valores intermedios con la misma llave intermedia. Cada invocacin de reduccin tendr una llave intermedia y una lista de valores que pertenecen a la llave y retorna un conjunto de datos ms pequeo o un solo valor como resultado final. map(key, value) reduce(ikey, list(ivalue)) list(ikey, ivalue) list(fvalue) </li> <li> 19. Resumen de Ejecucin Map Reduce </li> <li> 20. Ejemplo MapReduce Seudocdigo para un trabajo MapReduce, el cual toma una lista de documentos y cuenta la ocurrencia de cada palabra. </li> <li> 21. Ejemplo MapReduce (continuacin) La funcin de mapeo map(), es llamada para cada documento y emite un para {key:value} para cada palabra en el documento. Este resultado es enviado a la funcin reduce(), la cual es llamada para cada palabra en este ejemplo y se obtiene una lista de ocurrencias, los cuales son sumados y despus retornados como un sola valor. Un aplicacin en lnea que implementa MapReduce se puede usar para pruebas www.jsmapreduce.com </li> <li> 22. Prueba MapReduce: ww.jsmapreduce.com </li> <li> 23. Arquitectura MapReduce (Google) El framework trabaja con GFS Google Distribuido Storage System A cada nodo le es asignado una tarea de mapeo El resultado de la funcin de mapeo es almacenada en el disco local, del nodo de mapeo y ordenado por las llaves intermedias La intermedia Key-space es tambin dividido por el maestro y distribuido sobre los nodos de reduccin. Para conseguir los datos intermedios, cada nodo de reduccin tiene que preguntar al maestro por la ubicacin de los datos intermedios con sus llaves intermedias asignadas y leerlos desde el nodo de mapeo responsable. </li> <li> 24. Implementaciones de MapReduce Implementacin de Google (GFS) Hadoop con su filesystem distribuido HDFS Implementaciones con bases de datos NoSQL como MongoDB </li> <li> 25. Procesamiento de Lenguaje Natural - PNL Subsistema de inteligencia Artificial, que se ocupa de la formulacin e investigacin de mecani...</li></ul>