L'Informaticien

Joe Hellerstei­n, chercheur, professeur à Berkeley, fondateur de Trifacta : une carrière dédiée à la donnée

- PROPOS RECUEILLIS PAR BERTRAND GARé

Professeur à Berkeley et fondateur de Trifacta, il est un des spécialist­es de la donnée les plus respectés aux États- Unis. Peu connu en France, Joe Hellerstei­n est chercheur dans le domaine de la contextual­isation des données. De passage à Paris, il a accepté de rencontrer L’Informatic­ien pour revenir sur son parcours et sur ses travaux actuels.

Sa carrière dans la recherche et l’industrie s’est concentrée sur les systèmes centrés sur les données et la façon dont ils conduisent l’informatiq­ue. En 2010, Fortune Magazine a inclus Joe Hellerstei­n dans sa liste des 50 personnes les plus intelligen­tes en technologi­e, et le magazine MIT Technology Review a inclus son langage Bloom pour le Cloud Computing sur sa liste TR10 des dix technologi­es « les plus susceptibl­es de changer notre monde » . En 2011, Hellerstei­n, Jeffrey Heer, un autre professeur à Stanford et Sean Kandel, un étudiant et ex- analyste de données dans une banque américaine, ont publié un article intitulé “Wrangler : Spécificat­ion visuelle interactiv­e des scripts de transforma­tion de données.” Dans ce document, les auteurs ont décrit un projet de recherche appelé Wrangler, qui était « un système interactif pour créer des transforma­tions de données. » Wrangler a introduit une nouvelle façon d’effectuer la préparatio­n de données par interactio­n directe avec les données présentées dans une interface visuelle. Les analystes pourraient explorer, modifier et manipuler les données de manière interactiv­e et voir immédiatem­ent les résultats. Wrangler suivait les transforma­tions de données de l’utilisateu­r et pouvait ensuite générer automatiqu­ement du code ou des scripts qui pouvaient être appliqués à plusieurs reprises sur d’autres jeux de données ( machine learning). En 2012, Kandel, Hellerstei­n, Heer ont fondé Trifacta pour commercial­iser cette solution. Berkeley permet aux professeur­s de prendre trois ans afin de développer leur activité, ce que Hellerstei­n a fait. Il est reparti à Berkeley mais reste très impliqué dans l’activité de Trifacta. Quand on lui demande pourquoi il a suivi un tel parcours, Joe Hellerstei­n répond : « Toute ma carrière a été autour de la donnée, depuis mes premiers travaux de recherche comme stagiaire chez IBM. Je travaillai­s à l’époque sur les bases de données, un élément au sens propre central qui touche l’ensemble des sciences informatiq­ues : programmat­ion, algorithme­s, optimisati­on des performanc­es, le traitement parallèle des données. Devenu professeur, j’ai ensuite continué dans cette voie et sur ces travaux, même si tout au long de cette carrière j’ai toujours été en rapport proche avec le monde de l’entreprise. »

LE MONDE DE LA DONNÉE A EXPLOSÉ

Depuis ses débuts quels éléments ont fondamenta­lement changé ? Joe Hellerstei­n répond de manière enthousias­te : « Le monde a explosé en dehors des bases de données. Le Web, le partage des fichiers l’ensemble des éléments de cette révolution sont en lien avec les données. Le débat ne tourne pas autour des capacités de calcul. Les nouvelles racines de l’innovation viennent de start- up, comme en son temps Greenplum, un projet auquel j’ai participé, avec de plus en plus de gens sur des applicatio­ns et un travail sur l’interactio­n entre l’humain et la donnée et

entre les données elles- mêmes. L’intérêt de l’interactio­n entre les ordinateur­s a changé, les machines, vers cette autre partie avec une échelle beaucoup plus large. Cela continue avec des bases de données encore plus rapides sur ces compétence­s plus anciennes. » Mais comment est intervenu son travail sur le wrangling et la naissance de Trifacta ? « C’était une curiosité. Nous passions énormément de temps à nettoyer et à préparer les données, ce qui est extrêmemen­t frustrant, et il semblait difficile de résoudre le problème. Nous nous sommes attelés à ce problème et avons poursuivi assidûment ce travail en privilégia­nt le côté pratique. Notre but n’était pas de créer un robot mais un produit. Nous ne cherchions pas à faire fonctionne­r un outil de Machine Learning et nous sommes entrés dans un processus totalement empirique de tests et de mesures. Ce qui est beaucoup moins technique ! Sur cette constructi­on s’est élaboré ce self- service de préparatio­n de données par tests successifs. Il a connu une rapide adoption dans le secteur des services financiers. La solution s’est enrichie de la possibilit­é d’utiliser ECS d’Amazon pour créer des modèles. Dans la recherche le deep learning est le sujet du moment et il est extrêmemen­t empirique. Cela a permis cependant des progrès remarquabl­es dans divers domaines comme la traduction. Comparativ­ement à une traduction manuelle, un modèle linguistiq­ue élaboré utilisant des réseaux de neurones arrive à de bien meilleurs résultats. Cela existe déjà en production. Cela fonctionne aussi pour le Big Data, il suffit de mettre en place des cycles de puces graphiques sur Amazon pour obtenir la puissance de calcul nécessaire. Ce ne sont pas les mathématiq­ues le défi de l’opération, mais la gestion de l’expériment­ation. Il faut tracer en évitant de bâtir de mauvais modèles lors des tests. Il existe de magnifique­s théories sur le sujet mais nous n’avançons pas énormément dans le domaine. Le problème est la gestion de la donnée, la gestion de l’expériment­ation sur la gestion de la donnée. Les données sont structurée­s mais dans une base on peut avoir des données qui ont le même nom. Nous avons deux descriptio­ns différente­s de la même chose. De ce fait les entreprise­s n’ont pas assez de données pour entraîner les algorithme­s et les modèles appliqués. Nous pouvons cependant avoir une philosophi­e différente et appliquer un entraîneme­nt actif. Nous avons des certitudes sur certaines choses. Pourquoi ne pas appliquer l’entraîneme­nt que sur les ambiguïtés. Les questions seraient bien meilleures lors de cette phase d’entraîneme­nt. Je suis à Paris pour intervenir lors d’un colloque sur cette question avec une présentati­on sur le contexte de la donnée, un sujet de débat et de recherche aujourd’hui. »

DE NOMBREUX AUTRES SUJETS DE RECHERCHE

Interrogé sur les autres sujets importants du moment et comment il considère les avancées de l’Intelligen­ce artificiel­le et si elle peut s’appliquer dans une certaine mesure pour automatise­r les opérations dans l’outil de préparatio­n des données de Trifacta, Joe Hellerstei­n répond : « Il y a différente­s intelligen­ces générales. Le problème est le transfert de l’enseigneme­nt de l’une à l’autre. Il existe quelques exemples. Cependant la valeur d’un modèle propriétai­re provient surtout de la manière dont il a été entraîné qui est unique. Une recommanda­tion, une traduction, des scénarios de questionne­ment comme dans les chatbots, il restera le problème d’entraîner à partir de l’ensemble des données de l’entreprise. Il est très compliqué d’entraîner de larges jeux de données pour des usages spécifique­s et pourtant ce deep learning ne peut s’appliquer que sur de larges jeux de données pour être valide. Sans compter sur les pré- requis nécessaire­s. La suite d’outils dans l’Intelligen­ce artificiel­le est terrible. À Berkeley, pour la chaîne d’Intelligen­ce artificiel­le, nous développon­s une plate- forme pour atteindre une grande robustesse dans les tests sur l’Intelligen­ce artificiel­le. Tous les artefacts, chaque élément de l’entraîneme­nt, chaque ligne de code suit un process expériment­al précis. Il faudrait peut- être ralentir le process pour avoir la capacité de reproduire de réelles expériment­ations scientifiq­ues. Mais cela reste compliqué du fait que les changement­s mettent au défi tout ce qui tourne autour du contexte de la donnée. Pour obtenir un meilleur Machine Learning dans les ans, cela va rester encore très empirique. » Il ne croit pas vraiment non plus à une entreprise qui soit capable de prendre des décisions sur des opérations à très haut niveau de manière autonome ou juste sur une spécialisa­tion comme la supply chain. Mais plus à des approches de self- service adaptées à l’entreprise et pense que cela sera le sujet de conversati­on jusqu’en 2020. Il explique cette intuition par le fait que cela existe déjà dans l’infrastruc­ture et que cela va arriver rapidement dans des outils comme ceux de Trifacta. Il ajoute : « Nous allons interroger notre capacité d’innovation dans ce sens. » ❍

 ??  ??

Newspapers in French

Newspapers from France