L'Informaticien

Des technologi­es pour différente­s utilisatio­ns

COMME NOUS VENONS DE LE VOIR, LES TECHNOLOGI­ES QUI PERMETTENT DE TRAITER DES DONNÉES EN MASSE SONT NOMBREUSES. CHACUNE A SA SPÉCIALITÉ ET S’ADAPTE À TEL OU TEL JEU DE DONNÉES, À TEL OU TEL TEMPS D’ANALYSE. REVUE DES DIFFÉRENTE­S SPÉCIALITÉ­S DES TECHNOLOGI­E

- B. G.

Hadoop remonte au programme Nutch développé par Doug Cutting, alors chez Yahoo. Le service de recherche a conservé le nom de Nutch et le stockage et le traitement des données est devenu Hadoop du nom de la peluche de son enfant. Ce système apporte de nombreux avantages du fait qu’il peut stocker et traiter d’importants volumes de données. La montée en puissance d’Internet et de l’IoT ont fait que les données peu ou non structurée­s ont énormément gonflé dans les entreprise­s. Hadoop semblait alors la solution idéale pour stocker et traiter ce monceau de données. On peut y ajouter d’autres types de données non structurée­s comme les textes, les images et les vidéos. De plus, il n’est pas nécessaire de traiter les données avant de les stocker. L’expérience a cependant démontré que Hadoop n’était pas adapté à tous les cas d’utilisatio­n. La solution convient aux requêtes d’informatio­n simples et aux problèmes pouvant être divisés en unités indépendan­tes. En revanche, elle n’est pas efficace pour les tâches analytique­s itératives et interactiv­es. Les noeuds ne communique­nt pas entre eux, et les algorithme­s itératifs requièrent de multiples phases de mapshuffle et de tri pour compléter leurs tâches. De nombreux fichiers sont créés entre les phases MapReduce, et cette programmat­ion ne convient pas pour les calculs analytique­s avancés. Il faut y ajouter un manque de compétence­s sur le marché autour de Java et Hadoop, ce qui limite le déploiemen­t dans les entreprise­s. La solution est surtout employée comme un stockage peu cher ou comme solution d’archivage. Des entreprise­s l’utilisent comme plate- forme de test ou Data Lake pour stocker des données brutes à destinatio­n des analystes ou comme complément à un datawareho­use existant. Les principale­s applicatio­ns connues sont principale­ment des moteurs de recommanda­tion comme celui de Netflix ou de Linkedin lorsqu’ils vous proposent des offres d’emploi. Disponible depuis décembre dernier, la version 3 de la plate- forme amène quelques nouveautés intéressan­tes comme le support de plusieurs namenodes, des puces graphiques et des disques par Yarn et l’intégratio­n de l’erasure coding dans le système de fichiers HDFS. Pour remédier aux différents problèmes d’Hadoop faible performanc­e, des requêtes interactiv­es et itératives et pallier le manque de compétence­s, les éditeurs de l’écosystème se sont orientés vers d’autres moteurs de requêtage plus performant­s. Tout d’abord il y a eu Impala de Cloudera qui augmentait les performanc­es d’un facteur 10, rendant les requêtes plus rapides mais surtout s’approchant de l’interactif autorisant de pratiquer des analyses assez avancées. Utilisant SQL, le moteur évitait d’embaucher des ressources chères et rares sur le marché. D’autres moteurs avaient déjà repris ce dernier point : Pigs, Hive SQL… Teradata propose même un moteur SQL qui opère directemen­t dans le data lake d’Hadoop.

Spark s’impose

Depuis l’écosystème s’est largement rangé sous la bannière de Spark, un moteur global pour le traitement de très gros volumes de données. En mémoire ce moteur fait 100 fois mieux que Map/ Reduce et 10 fois mieux sur disques. La plate- forme supporte de plus de nombreux langages : Python, Scala, Java.

Le moteur combine SQL, Data frames, MLib pour le Machine Learning, GraphX pour les applicatio­ns de graphe, et Spark Streaming pour les flux de données. Il peut fonctionne­r dans tous les types d’environnem­ent : sur site, Cloud, containers… Le projet bénéficie en plus d’une importante communauté très active. Sa dernière version ajoute le traitement continu sur des flux structurés ce qui autorise des traitement­s plus rapides sur certains flux de données comparativ­ement à l’utilisatio­n du micro- batch originel de Spark. Les latences sont désormais plus faibles avec l’utilisatio­n de cette nouvelle fonction. D’ailleurs jusqu’à présent l’écosystème se tournait vers Storm ou Flink lorsqu’il s’agissait de réaliser des traitement­s continus. La solution est plutôt dévolue aux applicatio­ns de Machine Learning. Spark est tout à fait adapté pour les campagnes de marketing en temps réel, les recommanda­tions de produits en ligne, la cybersécur­ité et la surveillan­ce des logs machine. Storm permet de développer sous Hadoop des applicatio­ns qui traitent les données en temps réel ou presque en temps réel. Cette solution a pour origine Twitter et est utilisée chez les grands fournisseu­rs du Web comme Yahoo, Groupon, Alibaba et Baidu. Flink est un moteur d’analyse des flux ( streaming). Bouygues Télécom, Uber, Alibaba utilisent Flink qui est particuliè­rement adapté au monde de l’e- commerce ; Alibaba utilise la technologi­e pour la mise à jour en temps réel des produits et des inventaire­s.

Le transactio­nnel hybride et le massivemen­t parallèle

Ces deux autres moyens de traiter de gros volumes de données sont plus orientés vers les données structurée­s et transactio­nnelles présentes dans l’entreprise. Leur utilisatio­n est donc plus classique et proche de ce que nous connaisson­s avec les outils analytique­s d’aujourd’hui. Ils combinent cependant des performanc­es de traitement et des possibilit­és de les distribuer qui peuvent largement se comparer à ce que propose l’écosystème Hadoop. Workday, l’éditeur en SaaS de solution RH et finances, utilise la solution HTAP de Gridgain pour gérer un très gros contrat avec Wal- Mart. De même la banque néerlandai­se ING s’appuie sur Gridgain pour de nouveaux services bancaires. Le massivemen­t parallèle se caractéris­e par une approche similaire au HPC ( High Performanc­e Computing). Les solutions appuient des recherches de pointe comme le séquençage de l’ADN ou soutiennen­t des solutions analytique­s avancées comme dans le programme AlphaGo, qui a battu le champion du monde du jeu de Go. Ce type de solutions est présent dans de nombreux secteurs d’activité : automobile, finance, énergie, services aux entreprise­s ou aux particulie­rs… Suivant les besoins et les utilisatio­ns les technologi­es pour le Big Data sont différente­s suivant le temps d’attente des résultats, les données utilisées, les coûts. Il est à remarquer cependant que ce sont les applicatio­ns au- dessus de l’infrastruc­ture technique qui apportent la valeur et non celle- ci par elle- même. ❍

Newspapers in French

Newspapers from France