Hadoop 3 0 pour se rapprocher des besoins des métiers
Annoncée en septembre dernier, la dernière version considérée comme stable de la plate- forme de Big Data comporte de nombreuses améliorations qui vont dans le sens des besoins des entreprises.
Avec cette version 3.0, la plate- forme Hadoop atteint la maturité et suit ainsi un cycle classique des projets open source en complétant les fonctions de management et de sécurité. La première version devait prouver son fonctionnement. La seconde version a étendu le champ d’application de la plateforme avec Yarn. Maintenant elle délivre aussi plus d’efficacité dans la gestion et notamment la sécurité avec l’introduction du support de l’erasure coding, une méthodologie de distribution des données sur les différents éléments d’un cluster pour éviter les pertes de données. L’efficacité du stockage devrait s’améliorer de près de 50 % du fait de réplications plus efficaces et moins nombreuses. Plus besoin des trois réplicats précédents sur HDFS. La deuxième amélioration importante est la fédération de Yarn qui permet maintenant de faire évoluer les clusters jusqu’à 40 000 noeuds !
Le meilleur est à venir
Cette version n’est que le chemin vers des fonctions bien plus intéressantes pour les entreprises, et qui seront présentes dans les deux prochaines versions de la plate- forme : 3.1 et 3.2. Comme nous l’avons indiqué dans l’article sur Hortonworks, la 3.1 va étendre le support de type de ressources en y ajoutant les puces graphiques. Actuellement, Yarn ne reconnaît que les mémoires et les processeurs. Ce support devrait faciliter l’utilisation d’applications de machine learning ou deep learning dans les entreprises. Autre aspect intéressant de cette version, Yarn va ajouter le support des containers Docker ce qui va autoriser la possibilité d’utiliser d’autres applications que celles de Big Data sur les data lakes Hadoop. Autres améliorations prometteuses, les Yarn Services permettant des tâches longues et l’isolation des packages évitant à des librairies différentes ( R et Python) de poser des problèmes de compatibilité. Avec la 3.2, l’ensemble sera capable d’utiliser des FGPA ( Field Gateway Programmable Array), des processeurs spécialisés, moins chers encore que les puces graphiques. Autre amélioration de la 3.2, l’arrivée d’Ozone, une nouvelle version d’un référentiel Clé/ Valeur qui sera compatible avec l’API de S3 d’AWS et permettra de stocker des fichiers de plus petite taille, ce qui n’est pas le plus adapté pour HDFS. Ces différentes versions sont prévues pour sortir dans le cours du premier semestre de cette année. La communauté souhaite accélérer le rythme des sorties pour un cycle trimestriel. Comme on le voit l’écosystème Hadoop va fortement évoluer dans les mois à venir avec une première direction : se rapprocher des besoins des entreprises et rationaliser l’efficacité de l’infrastructure et de l’architecture pour simplifier et faciliter les déploiements larges quel que soit l’environnement choisi. Sur site, Cloud privé ou public et faciliter les interactions entre ces différents environnements. ❍