Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

  • View
    5.227

  • Download
    4

Embed Size (px)

Transcript

  • 1. HUG France #2/2 - 17 octobre 2012Hadoop au Crdit Mutuel Arka Retour sur 3 annes dutilisationMathias HerbertsMathias.Herberts@gmail.com@herberts Ce support est mis disposition selon les termes de la Licence Creative Commons Attribution - Pas dUtilisationCommerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

2. Crdit Mutuel ArkaGroupe bancaire de plein exercice3.2 millions de socitaires et clients9000 salaris 3. Hadoop phase 1 Installation dune cellule Hadoop en juillet 2009 Exprimentations autour de lanalyse de donnes Laboratoire pour the master plan 5 machines Dell 1950 2 x 1To 2 x L5410@2.33GHz (8 cores) 16 Go de RAM 4. Hadoop phase 2 Installation dune cellule ZooKeeper en 2009 Besoin dun mcanisme de coordination (HBase) Plugin dauthentification via clefs SSH Passerelle SVN ZooKeeper Ensemble de 6 machines sur 3 datacenters 3 groupes de 2 machines de poids 2 et 1 5. Hadoop phase 3 Projet #1, recherche sur oprations bancaires Recherche fulltext sur les libells depuis 2001 Version en place datant de 2003, base sur MySQL Limites atteintes (3.5 x 10E9 rows) Dcision dutiliser HBase pour le stockage Indexation opportuniste des donnes (Solr) Extension plus de donnes 6. Hadoop phase 4 Rcuprer nos donnes ... depuis le mainframe Simplifier les transferts (IDCAMS REPRO + FTP) Service de staging Utilitaire de transfert fileutil Lecture directe des VSAM/Squentiels Pas de conversion EBCDIC ??? lors du transfert Bibliothque de lecture des donnes Interprtation via COPY COBOL 7. Hadoop phase 5 Passage en production du projet #1 Nouvelle cellule Hadoop installe en 2011-04 76 HP DL 165 G7, 24Go, 4x2To, 2xAMD 16 cores 1 NN, 1 SNN, 1 JT, 1 backup JT, 72 DN, 56 TT 8 RS HBase, 8 nuds dindexation 4 racks, 2 datacenters, sans sursouscription rseau Remplacement de la cellule de test 5 HP DL 165 G7 idem production Passage effectif en production en 2011-12 8. Hadoop phase 5 9. Hadoop phase 5 10. Hadoop phase 6 Mise au point dun systme de monitoring Ncessaire pour avoir une photo t de la cellule Centr sur la donne brute, pas sur des graphes Support de mtriques techniques ET mtier Format universel TS name{label0=value0,label1=val1,...} value Arka Real Time Information MONitoring 11. Hadoop phase 6 Fonctionnement dArtimon Cration dun MonitoringContext Enregistrement via ZooKeeper Point dentre Thrift Mise jour de variables dans le code Collecte via Flume / Kafka Archivage dans HDFS Stockage dhistoriques en mmoire (VHMS) 1H@1m / 4H@5m / 24H@15m / 72H@60m 12. Hadoop phase 6 Fonctionnement dArtimon (2) Possibilit de collecter dans /var/run/artimon Bibliothque en Groovy Oprations sur classes dquivalences Gnration de graphiques via Google Charts API Analyse postmortem via extraction Pig + VHMS 2M de mtriques par minute sur 1200 machines grunt> fs -du /hdfs/data/artimon Found 2 items 43801992067763hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2011 131762114040268 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2012 13. Hadoop phase 7 14. Hadoop phase 7 15. Hadoop phase 7 Gros investissement autour de Pig Volont davoir un outil Dataflow (pas de xQL) Apprhendable par les mtiers (qui font du SAS) Possibilits dextension Souplesse dans la mise disposition des donnes Ordonnancement depuis le mainframe 16. Hadoop phase 7 Pig au Crdit Mutuel Arka Donnes : SequenceFile de BytesWritable Loader Pig com.arkea.commons.pig.SequenceFileLoadFunc Classes Helper pour interprter les donnes Thrift, COBOL, DB2, JDBC, Paramtrage, PCAP Outil fileutil dextraction de ces donnes 50 personnes formes 2 projets majeurs, reporting oprationnel et LAB 17. Hadoop phase 7 18. Hadoop phase 8 Croissance de la cellule Hadoop 2012-01 112 machines, 4 racks de 28 108 DN (812 To), 88 TT (1232 slots) Utilisation des capacits de calcul Calcul de ratios de solvabilit Solvency II Division par ~200 des temps de calculs 19. Hadoop Bilan Importance de loutillage tre compatible avec lexistant du SI Bien penser la forme des donnes Positionnement transverse un rel plus Cot rduit au fur et mesure des projets Capitalisation dans les mtiers, viralit Ne pas cder certaines sirnes 20. #2/2 HUG France 17 octobre 2012Hadoop au Crdit Mutuel ArkaMerci pour votre attentionMathias HerbertsMathias.Herberts@gmail.com@herberts Ce support est mis disposition selon les termes de la Licence Creative Commons Attribution - Pas dUtilisationCommerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/