L'Informaticien

Hadoop 3 0 pour se rapprocher des besoins des métiers

Annoncée en septembre dernier, la dernière version considérée comme stable de la plate- forme de Big Data comporte de nombreuses améliorati­ons qui vont dans le sens des besoins des entreprise­s.

- B. G.

Avec cette version 3.0, la plate- forme Hadoop atteint la maturité et suit ainsi un cycle classique des projets open source en complétant les fonctions de management et de sécurité. La première version devait prouver son fonctionne­ment. La seconde version a étendu le champ d’applicatio­n de la plateforme avec Yarn. Maintenant elle délivre aussi plus d’efficacité dans la gestion et notamment la sécurité avec l’introducti­on du support de l’erasure coding, une méthodolog­ie de distributi­on des données sur les différents éléments d’un cluster pour éviter les pertes de données. L’efficacité du stockage devrait s’améliorer de près de 50 % du fait de réplicatio­ns plus efficaces et moins nombreuses. Plus besoin des trois réplicats précédents sur HDFS. La deuxième améliorati­on importante est la fédération de Yarn qui permet maintenant de faire évoluer les clusters jusqu’à 40 000 noeuds !

Le meilleur est à venir

Cette version n’est que le chemin vers des fonctions bien plus intéressan­tes pour les entreprise­s, et qui seront présentes dans les deux prochaines versions de la plate- forme : 3.1 et 3.2. Comme nous l’avons indiqué dans l’article sur Hortonwork­s, la 3.1 va étendre le support de type de ressources en y ajoutant les puces graphiques. Actuelleme­nt, Yarn ne reconnaît que les mémoires et les processeur­s. Ce support devrait faciliter l’utilisatio­n d’applicatio­ns de machine learning ou deep learning dans les entreprise­s. Autre aspect intéressan­t de cette version, Yarn va ajouter le support des containers Docker ce qui va autoriser la possibilit­é d’utiliser d’autres applicatio­ns que celles de Big Data sur les data lakes Hadoop. Autres améliorati­ons prometteus­es, les Yarn Services permettant des tâches longues et l’isolation des packages évitant à des librairies différente­s ( R et Python) de poser des problèmes de compatibil­ité. Avec la 3.2, l’ensemble sera capable d’utiliser des FGPA ( Field Gateway Programmab­le Array), des processeur­s spécialisé­s, moins chers encore que les puces graphiques. Autre améliorati­on de la 3.2, l’arrivée d’Ozone, une nouvelle version d’un référentie­l Clé/ Valeur qui sera compatible avec l’API de S3 d’AWS et permettra de stocker des fichiers de plus petite taille, ce qui n’est pas le plus adapté pour HDFS. Ces différente­s versions sont prévues pour sortir dans le cours du premier semestre de cette année. La communauté souhaite accélérer le rythme des sorties pour un cycle trimestrie­l. Comme on le voit l’écosystème Hadoop va fortement évoluer dans les mois à venir avec une première direction : se rapprocher des besoins des entreprise­s et rationalis­er l’efficacité de l’infrastruc­ture et de l’architectu­re pour simplifier et faciliter les déploiemen­ts larges quel que soit l’environnem­ent choisi. Sur site, Cloud privé ou public et faciliter les interactio­ns entre ces différents environnem­ents. ❍

 ??  ??

Newspapers in French

Newspapers from France