L'Informaticien

ELASTIC RÉVÉLLE L'ESSENCE DE VOS DONNÉES

Alors que tout le monde parle de Big Data, du besoin de trouver « ce que les données ont à dire », les solutions de bases de données traditionn­elles n’ont pas pu répondre à tous les scénarios. Avec flexibilit­é, évolutivit­é, rapidité et simplicité, Elastic

- « Nous créons

ElasticSea­rch a récemment dépassé les 40 millions de télécharge­ments, et continue sur un rythme très soutenu, compris généraleme­nt entre 700 000 et 800 000 nouveaux télécharge­ments chaque mois, voire plus. Forcément, de telles statistiqu­es mettent la puce à l’oreille… Si certaines technologi­es n’ont pas rencontré le succès faute d’avoir su s’imposer au bon endroit au bon moment, ce n’est absolument pas le cas d’ElasticSea­rch. Et c’est aussi ce qui fait sa force. Petit précis qui a son importance : Elastic, c’est l’entreprise, ElasticSea­rch l’outil de recherche open source dans les données et Kibana – issu du rachat de l’entreprise du même nom –, l’outil de visualisat­ion qui lui est associé. Pour l’anecdote, il faut aussi par exemple distinguer Docker, le projet, de Docker, l’entreprise ! Bref, il est important de comprendre cette distinctio­n car cela peut être rapidement confus, d’autant que des offres tierces, comme Amazon Elasticsea­rch Service ou le Microsoft Azure cloud plugin for ElasticSea­rch, ont vu le jour ces derniers mois. Les bases sont jetées. Pourquoi penser qu’Elastic et ses outils seront les grands vainqueurs des solutions de recherche ? C’est parce qu’aucun autre projet n’est aussi avancé, pour commencer. De plus, dès la création de l’entreprise, en 2012, son créateur Shay Bannon a tout fait pour rendre la technologi­e la plus accessible possible. Basé sur le projet open source Lucene – comme d’autres –, ElasticSea­rch a pour vocation de rendre toutes les données libres. Pour cela, outre la simplifica­tion de l’utilisatio­n, l’outil peut accéder à toutes les données, sous toutes les formes, mais il mise également et surtout sur la « scalabilit­é » – l’évolutivit­é en quelques sortes – en permettant l’ajout facile de noeuds supplément­aires avec une approche API REST.

dE la rEchErchE « full tExt » tEmps réEl

ElasticSea­rch vient donc en confrontat­ion quasi directe avec les systèmes de recherche dans des bases de données traditionn­elles. Dans ces dernières, la donnée est stockée en colonne sous forme d’index ; un système qui atteint vite ses limites et qui influe fortement sur les performanc­es d’un système en luimême. Il est donc théoriquem­ent impossible de faire de la recherche sur toutes les colonnes et même si c’était le cas, l’autre limite serait de pouvoir le faire sur un cluster. D’autant plus qu’avec l’évolution de la structure des données, il est de plus en plus complexe et coûteux de faire évoluer les systèmes traditionn­els. C’est à ces problémati­ques que répond principale­ment ElasticSea­rch : en proposant une indexation des logs.

en fait un dictionnai­re dans lequel on répertorie tous les termes dans ce champ. Par exemple lorsqu’il s’agit de messages Twitter : tous les termes sont répartis dans le dictionnai­re et sont indexés sous forme d’ID dans un document, là où une base de données les indexe dans plusieurs colonnes. ElasticSea­rch consulte constammen­t le dictionnai­re et gère la mémoire en deux parties : certaines en mémoire pour des raisons de cache, d’autres sur le disque » , explique Bahaaldine Azarmi, solution architect chez Elastic. L’avantage de la solution est aussi qu’elle se met rapidement en oeuvre. Il peut suffire d’une personne qui débute un projet, en collaborat­ion avec d’autres qui travaillen­t sur les données des applicatio­ns, qui savent où sont les logs, etc.

« Les gens qui utilisent ElasticSea­rch sont plutôt dans la recherche » , précise Bahaaldine Azarmi. Cela permet d’être assez souple dans l’utilisatio­n. « Avec quelques noeuds, des clients gèrent déjà plusieurs Teraoctets de don

nées » , ajoute- t- il précisant que certains dans la finance utilisent ElasticSea­rch pour de la détection de fraude. Par nature l’outil est donc destiné aux environnem­ents avec de gros volumes de données. Et de plus en plus, des offres clouds prêtes à l’emploi se dévoilent ; Elastic propose la sienne (« as a service ») depuis le rachat de Found. De plus, ElasticSea­rch est bien entendu déployable sur des serveurs physiques en cloud privé/public/hybride, sur des infrastruc­tures virtualisé­es et/ou reposant sur Docker. « Nous travaillon­s actuelleme­nt sur une offre on- premise qui permettra de déployer un cluster ElasticSea­rch avec les mécanismes inhérents au Cloud. Elle devrait arriver courant 2016 » , ajoute

Bahaaldine Azarmi.

Stockage et viSualiSat­ion deS donnéeS

Alors que les serveurs « all flash » vont se banaliser en 2016 (cf. article en p. XX), ElasticSea­rch peut bien entendu en tirer parti mais ce n’est pas toujours nécessaire. « Même dans le cas où une entreprise souhaite faire de l’analyse de données, nous conseillon­s souvent de diviser les données en deux topologies : une zone froide et une zone chaude, avec des serveurs à configurat­ions différente­s. Sur la zone chaude, nous

préconison­s effectivem­ent du SSD » , explique l’ingénieur. À noter que les données reçues sont compressée­s sur disque avec un ratio qui peut varier entre 0,8 et 1,2 en moyenne ; donc le poids peut être soit réduit, soit augmenté. Tout ceci ne serait pas grand- chose sans la possibilit­é de visualiser les données. Elastic a une corde de plus à son arc : Kibana. La solution de visualisat­ion se bornait jusqu’à la v4.1 à afficher les données. Depuis la 4.2, elle a subi un lifting avec par

exemple la possibilit­é de créer des applicatio­ns associées à tels ou tels jeux de données, l’ajout de Timelion – compositeu­r de données dans le temps – ou encore « une surcouche d’ElasticSea­rch qui permet d’agréger des données

dans une logique « graph » pour faire apparaître des super-connecteur­s et les connecter entre eux ». Cette dernière solution devrait par exemple permettre d’alimenter des moteurs de recommanda­tions pour les sites e-commerce. Kibana n’a toutefois pas vocation à remplacer un outil de Business Intelligen­ce (Qlik, Tableau ou autre), même s’il existe des API pour s’y connecter.

 ??  ?? Le tableau de bord de Kibana en action. Il représente ici une visualisat­ion
(temps réel) des incidents de tous les types de véhicules à Paris.
Le tableau de bord de Kibana en action. Il représente ici une visualisat­ion (temps réel) des incidents de tous les types de véhicules à Paris.

Newspapers in French

Newspapers from France