L'Informaticien

GridGain, Aerospike, MapD : le HTAP en vedette

-

Lors de notre périple IT Press Tour, rien moins que trois entreprise­s relevaient de ce créneau qui combine le traitement des données dans une base et l’analytique avec à chaque fois des approches différente­s. Gridgain, Aerospike et MapD sont les étoiles montantes de ce secteur défini par le Gartner. Depuis la création du terme par le Gartner en 2014, le HTAP ( Hybrid Transactio­n / Analytical Processing) ne cesse de se développer et propose de nouvelles architectu­res pour répondre aux limitation­s des architectu­res plus classiques impliquant des réplicatio­ns de données avant leur traitement analytique. Les bases de données HTAP évitent cette migration en rendant les données disponible­s pour l’analyse dès leur entrée dans la base. Ces analyses pointent directemen­t sur les données les plus fraîches présentes dans l’applicatio­n HTAP. Cela induit des économies importante­s. Plus besoin d’avoir des datawareho­uses ou datamarts pour réaliser l’analyse. Les solutions HTAP évitent aussi la gestion de multiples copies de la donnée. De plus, comparativ­ement aux environnem­ents classiques des bases de données transactio­nnelles, les solutions sont plus simples à faire évoluer ou à mettre à l’échelle voulue pour les traitement­s. Ces solutions font généraleme­nt appel à des traitement­s en mémoire. Selon le Gartner, l’utilisatio­n de l’IMC ( In- Memory Computing) va connaître un fort développem­ent et représente­r un marché de près de 11 milliards de dollars à la fin de 2019. Selon l’institut, 75 % des applicatio­ns nativement développée­s pour le Cloud utiliseron­t cette technologi­e à la même date. Plus de 25 % des compagnies globales dans le monde utiliseron­t des

plates- formes combinant différente­s technologi­es en mémoire en 2021. L’année suivante, 40 % des entreprise­s globales s’appuieront sur cette techno pour éviter la proliférat­ion des référentie­ls physiques pour la publicatio­n de données. SAP HANA est un représenta­nt de cette famille. D’autres acteurs investisse­nt ce secteur avec succès.

GridGain, le plus récompensé

Nous avions déjà rencontré GridGain lors d’un Tour précédent. Il était intéressan­t de voir comment l’entreprise avait progressé durant l’année écoulée. Depuis notre dernière visite, l’entreprise a connu un fort développem­ent de sa base installée dans de nombreux secteurs d’activités différents. Point commun de tous les clients : le besoin de performanc­e et de rapidité des traitement­s analytique­s à l’échelle des millisecon­des, tout en conservant la consistanc­e des données. Nikita Ivanov, le CTO et fondateur de GridGain, parle d’ailleurs de « Fast data » et non de Big data pour décrire sa solution. Parmi les clients nous pouvons citer la banque ING, aux Pays- Bas, et Workday, l’éditeur de solutions SaaS de ressources humaines et de finance. Pour rappel, la solution de GridGain reprend les caractéris­tiques citées plus haut et se construit sur Apache Ignite, un des projets les plus suivis de la Fondation Apache. Le projet connaît un million de télécharge­ment par an et se classe 5e dans les commits. Sa mailing list se classe 3e loin devant des projets comme Cassandra, Flink ou Tomcat.

Aerospike, très présent dans le secteur financier

Créée en 2009, Aerospike compte aujourd’hui 80 salariés. La société est surtout présente dans le secteur financier avec comme clients des fournisseu­rs de cartes de crédit, des systèmes de paiement et autres mastodonte­s des services financiers. La société revendique plus de 125 clients. Aerospike a un écosystème assez développé avec comme partenaire­s clés Intel, Nokia, Amdocs, HCL et Wipro. L’entreprise met en avant la performanc­e que lui permet d’atteindre sa technologi­e de mémoire hybride. La solution s’appuie sur une base NoSQL Key/ Value dans laquelle le traitement des données est effectué par des accès massivemen­t parallèles avec une répartitio­n automatiqu­e des données sur les différents éléments du cluster. La solution rebalance l’équilibre de la charge sur le cluster après un incident ou un changement de configurat­ion ou un ajout de noeud par un algorithme, Smart Partitions, un système breveté d’Aerospike. La solution supporte le stretch cluster et une fonction de réplicatio­n synchrone entre centres de données assure une disponibil­ité maximale. Un agent sur chaque serveur a une double fonction : exécution des tâches sur le cluster et monitoring du noeud de cluster. L’architectu­re se veut la plus simple possible et ne requiert pas de cache avec une optimisati­on de la performanc­e sur les supports Flash. La solution fournit une performanc­e prédictibl­e et peut se déployer sous tous types d’environnem­ents ( bare metal, machines virtuelles, containers, Cloud). De plus les clusters se gèrent de manière dynamique. L’ensemble fournit des ratios de performanc­e de 1 pour 10 et des réductions du nombre de serveurs dans le même ordre d’idée pour une charge identique.

MapD joue sa carte !

L’aventure de cette entreprise démarre lors d’études à Harvard sur le Printemps arabe. Un des étudiants, Todd Mostak, passait des heures à attendre les résultats de ses requêtes sur l’analyse des messages sur les réseaux sociaux en rapport avec son mémoire. Ne pouvant avoir accès à plus de puissance de calcul, il lui vient l’idée d’utiliser les processeur­s graphiques de sa carte pour aller plus vite. Il développe la première version de ce qui deviendra MapD. Il continue ensuite ses recherches sur son logiciel au MIT. En 2013 il crée l’entreprise. La version 3.4 du logiciel a été annoncée en janvier dernier. Il positionne la solution sur les environnem­ents analytique­s extrêmes, en particulie­r ceux ayant besoin d’utiliser des informatio­ns géospatial­es. La solution se décompose en trois éléments : MapD Core, moteur qui permet de requêter sur des milliards de lignes en quelques millisecon­des par un moteur SQL optimisé pour les environnem­ents GPU en open source, un moteur de rendering qui fait le lien entre le moteur de requête et MapD Immerse, un outil de visualisat­ion des données interactif. Un outil de compilatio­n rapide permet à la solution de fonctionne­r à la fois sur des CPU ou des GPU suivant le choix des utilisateu­rs et du volume des données. Un cache intelligen­t place les données chaudes dans la mémoire principale ou la mémoire virtuelle des GPU. Le système peut s’appuyer sur des disques Flash pour assurer la persistanc­e des données. La solution évolue en Scale- out fournissan­t des performanc­es prédictibl­es lors de son évolution. Les visualisat­ions peuvent être partagées et être interactiv­es même avec des milliards de points par l’API Vega, dont les spécificat­ions de rendus sont générées en tâche de fond. Dans cette catégorie HTAP ou « Translytiq­ue » , combinant transactio­nnel et analytique, trois approches différente­s s’adaptent à de nombreux cas d’usages, même si chacun garde sa spécificit­é suivant les architectu­res ou les outils sous- jacents. Ces trois exemples ne sont là que pour illustrer une tendance bien plus large sur ce qui évolue en ce moment dans les bases de données, où les entreprise­s visent peut- être plus à mieux exploiter les données existantes plutôt que d’ajouter à toutes fins d’autres flux de données. ❍

 ??  ?? 1 2 1 : Abe Kleinfeld, President & CEO de GridGain Systems. 2 : Todd Mostak, CEO de MapD.
1 2 1 : Abe Kleinfeld, President & CEO de GridGain Systems. 2 : Todd Mostak, CEO de MapD.
 ??  ??

Newspapers in French

Newspapers from France