Hortonworks étend ses services de gestion des données
Dataworks Summit Europe, la conférence utilisateurs et partenaires d’Hortonworks en Europe, s’est tenue à la mi- avril à Berlin.
Si la première journée de la Dataworks Summit Europe était consacrée aux utilisateurs pour des entraînements et des certifications, la seconde était plus consistante : avec l’annonce de Data Steward Studio et une nouvelle version à venir de Data Lifecycle Management, composants du service Data Plane Services, la plate- forme de gestion des données de l’éditeur. Data Steward Studio ( DSS) vise à apporter une vision consistante de la sécurité et de la gouvernance des données au travers des différents référentiels de données présents dans ou hors de l’entreprise. À partir de ce module, les métiers peuvent évaluer le niveau de confiance dans les données présentes et les partager de manière sécurisée dans l’entreprise pour obtenir de meilleurs résultats d’analyse à partir des données sises dans les différents data lakes utilisés. DSS est le deuxième service, ou la deuxième application développée par Hortonworks autour de sa plate- forme de gestion des données, composant de la nouvelle architecture de données au coeur de la plateforme HDP, actuellement la version 2.6. Le logiciel fournit un moyen aisé de trouver, d’organiser, de collaborer et d’échanger de manière sécurisée des rapports sur les données et leur contexte pour faciliter le travail des analystes ou des data scientists. Data Plane Services va devenir une sorte de couche qui permet la décorrélation complète des données permettant ainsi à Hortonworks de s’exécuter dans n’importe quel environnement et n’importe quel contexte. Si, par analogie, on peut penser à une sorte de virtualisation des données, ce n’est en fait pas le cas ici. L’idée est plus de pouvoir profiter du meilleur environnement possible pour exécuter les applications. Les applications vont venir s’enficher sur l’infrastructure sous- jacente fournie par HDP et HDF, les deux principaux collecteurs de flux de données d’Hortonworks. Si l ’ édi teur se contente aujourd’hui de proposer des services autour de la gestion des données, il n’est pas interdit de penser que des partenaires puissent développer des applications plus métier sur cet ensemble en profitant des services complémentaires fournis par Hortonworks. À l’avenir, de ce fait, les services vont pouvoir s’effectuer dans des containers. L’ensemble constitue une plate- forme unique de gestion des données. Scott Gnau, CTO de Hortonworks, indique que tout s’aligne pour créer une sorte de « data fabric » .
Un steward riche de fonctions
L’organisation des données se réalise suivant différents critères comme des critères métier ou les règles de protection autour des données concernées. Il est aussi possible de découvrir, chercher et cataloguer les données sensibles ou avec des caractères spécifiques comme les données personnelles. Les données peuvent être regroupées par caractéristiques comme l’origine, la sensibilité, l’utilisation fonctionnelle, le niveau de protection ou la valeur. La solution permet de suivre le lignage des données et sécurise les données et les métadonnées. DSS est délivré sous forme de services et s’appuie sur deux éléments, Apache Atlas et Apache Ranger. Data Lifecycle Manager connaît une version mise à jour. Cette version, qui sera disponible lors du prochain trimestre,
permettra d’encapsuler et de copier les données des environnements physiques vers des environnements de Clouds publics autorisant une mobilité totale des données selon la tâche à effectuer dans l’environnement le plus adapté.
Hortonworks 3.0
Une des spéci f ici tés de Hortonworks est de se coller au plus près du projet Apache sur Hadoop. Cependant Scott Gnau, s’il confirme, ainsi que Nadeem Ashgar, Global field CTO chez Hortonworks, que l’éditeur va continuer à suivre la feuille de route du projet Apache avec l’intégration de la version 3.0 d’Hadoop, leur intérêt est surtout autour de la version 3.1 qui intégrera la possibilité d’utiliser des puces graphiques. Selon Nadeem Ashgar, la version 3.0 comporte beaucoup d’améliorations qui doivent s’intégrer sur la plate- forme de l’éditeur. Hortonworks représente donc plus la vision stratégique de l’éditeur que le simple copier- coller de l’intégration des fonctions d’Hadoop 3.0. L’ensemble sera accessible par le Cloud. Scott Gnau résume ainsi un tryptique pour dépeindre le marché actuel : la stratégie pour vos données est le Cloud qui est votre stratégie pour votre activité. Cela comprend de nouvelles architectures qui permettent de collecter les données aux limites de l’entreprise, de les analyser et de les retourner vers les limites de l’entreprise.
Le numéro 1 en France ?
Selon Emmanuel Serrurier, en charge de la filiale de l’éditeur en France, le contexte est favorable pour l’éditeur. Il indique qu’il signe environ deux comptes par mois et qu’il a dépassé la cinquantaine de comptes en France ; principalement des grands comptes français qui ne s’arrêtent plus seulement à la création d’un data lake mais commencent à s’intéresser aux services et pour certains complémentent leur existant avec le logiciel de collecte des données en mouvement, HDF ( Horton Data Flow). L’entreprise ne chasse pas exclusivement les grands comptes et signe des entreprises considérées comme plus petites comme l’Occitane que le dirigeant français nous a citée. Avec plus de trente salariés en France, Hortonworks est l’éditeur de son secteur le plus présent en France loin devant MapR et Cloudera. Son empreinte sur le marché est d’ailleurs en proportion. Si globalement l’entreprise n’est toujours pas rentable, un objectif repoussé depuis deux ans, Hortonworks est devenu positif en trésorerie sur le dernier trimestre enregistré, une tendance à confirmer sur les prochains trimestres. Malgré leurs efforts, les concurrents de Hortonworks semblent ne pas avoir encore mis les moyens marketing et de vente pour rattraper l’éditeur. Hortonworks est présent dans tous les secteurs d’activité avec une forte représentation dans le secteur public. ❍