Joe Hel­ler­stein, cher­cheur, pro­fes­seur à Ber­ke­ley, fon­da­teur de Tri­fac­ta : une car­rière dé­diée à la don­née

L'Informaticien - - SOMMAIRE - PRO­POS RECUEILLIS PAR BER­TRAND GA­Ré

Pro­fes­seur à Ber­ke­ley et fon­da­teur de Tri­fac­ta, il est un des spé­cia­listes de la don­née les plus res­pec­tés aux États- Unis. Peu connu en France, Joe Hel­ler­stein est cher­cheur dans le do­maine de la contex­tua­li­sa­tion des don­nées. De pas­sage à Paris, il a ac­cep­té de ren­con­trer L’In­for­ma­ti­cien pour re­ve­nir sur son par­cours et sur ses tra­vaux ac­tuels.

Sa car­rière dans la re­cherche et l’in­dus­trie s’est concen­trée sur les sys­tèmes cen­trés sur les don­nées et la fa­çon dont ils conduisent l’in­for­ma­tique. En 2010, For­tune Ma­ga­zine a in­clus Joe Hel­ler­stein dans sa liste des 50 per­sonnes les plus intelligen­tes en tech­no­lo­gie, et le ma­ga­zine MIT Tech­no­lo­gy Re­view a in­clus son lan­gage Bloom pour le Cloud Com­pu­ting sur sa liste TR10 des dix tech­no­lo­gies « les plus sus­cep­tibles de chan­ger notre monde » . En 2011, Hel­ler­stein, Jef­frey Heer, un autre pro­fes­seur à Stan­ford et Sean Kan­del, un étu­diant et ex- ana­lyste de don­nées dans une banque amé­ri­caine, ont pu­blié un ar­ticle in­ti­tu­lé “Wran­gler : Spé­ci­fi­ca­tion vi­suelle in­ter­ac­tive des scripts de trans­for­ma­tion de don­nées.” Dans ce do­cu­ment, les au­teurs ont dé­crit un pro­jet de re­cherche ap­pe­lé Wran­gler, qui était « un sys­tème in­ter­ac­tif pour créer des trans­for­ma­tions de don­nées. » Wran­gler a in­tro­duit une nou­velle fa­çon d’ef­fec­tuer la pré­pa­ra­tion de don­nées par in­ter­ac­tion di­recte avec les don­nées pré­sen­tées dans une in­ter­face vi­suelle. Les ana­lystes pour­raient ex­plo­rer, mo­di­fier et ma­ni­pu­ler les don­nées de ma­nière in­ter­ac­tive et voir im­mé­dia­te­ment les ré­sul­tats. Wran­gler sui­vait les trans­for­ma­tions de don­nées de l’uti­li­sa­teur et pou­vait en­suite gé­né­rer au­to­ma­ti­que­ment du code ou des scripts qui pou­vaient être ap­pli­qués à plu­sieurs re­prises sur d’autres jeux de don­nées ( ma­chine lear­ning). En 2012, Kan­del, Hel­ler­stein, Heer ont fon­dé Tri­fac­ta pour com­mer­cia­li­ser cette so­lu­tion. Ber­ke­ley per­met aux pro­fes­seurs de prendre trois ans afin de dé­ve­lop­per leur ac­ti­vi­té, ce que Hel­ler­stein a fait. Il est re­par­ti à Ber­ke­ley mais reste très im­pli­qué dans l’ac­ti­vi­té de Tri­fac­ta. Quand on lui de­mande pour­quoi il a sui­vi un tel par­cours, Joe Hel­ler­stein ré­pond : « Toute ma car­rière a été au­tour de la don­née, de­puis mes pre­miers tra­vaux de re­cherche comme sta­giaire chez IBM. Je tra­vaillais à l’époque sur les bases de don­nées, un élé­ment au sens propre cen­tral qui touche l’en­semble des sciences in­for­ma­tiques : pro­gram­ma­tion, al­go­rithmes, op­ti­mi­sa­tion des per­for­mances, le trai­te­ment pa­ral­lèle des don­nées. De­ve­nu pro­fes­seur, j’ai en­suite conti­nué dans cette voie et sur ces tra­vaux, même si tout au long de cette car­rière j’ai tou­jours été en rap­port proche avec le monde de l’en­tre­prise. »

LE MONDE DE LA DON­NÉE A EX­PLO­SÉ

De­puis ses dé­buts quels élé­ments ont fon­da­men­ta­le­ment chan­gé ? Joe Hel­ler­stein ré­pond de ma­nière en­thou­siaste : « Le monde a ex­plo­sé en de­hors des bases de don­nées. Le Web, le par­tage des fi­chiers l’en­semble des élé­ments de cette ré­vo­lu­tion sont en lien avec les don­nées. Le dé­bat ne tourne pas au­tour des ca­pa­ci­tés de cal­cul. Les nou­velles ra­cines de l’in­no­va­tion viennent de start- up, comme en son temps Green­plum, un pro­jet au­quel j’ai par­ti­ci­pé, avec de plus en plus de gens sur des ap­pli­ca­tions et un tra­vail sur l’in­ter­ac­tion entre l’hu­main et la don­née et

entre les don­nées elles- mêmes. L’in­té­rêt de l’in­ter­ac­tion entre les or­di­na­teurs a chan­gé, les ma­chines, vers cette autre par­tie avec une échelle beau­coup plus large. Ce­la conti­nue avec des bases de don­nées en­core plus ra­pides sur ces com­pé­tences plus an­ciennes. » Mais comment est in­ter­ve­nu son tra­vail sur le wran­gling et la nais­sance de Tri­fac­ta ? « C’était une cu­rio­si­té. Nous pas­sions énor­mé­ment de temps à net­toyer et à pré­pa­rer les don­nées, ce qui est ex­trê­me­ment frus­trant, et il sem­blait dif­fi­cile de ré­soudre le pro­blème. Nous nous sommes at­te­lés à ce pro­blème et avons pour­sui­vi as­si­dû­ment ce tra­vail en pri­vi­lé­giant le cô­té pra­tique. Notre but n’était pas de créer un ro­bot mais un pro­duit. Nous ne cher­chions pas à faire fonc­tion­ner un ou­til de Ma­chine Lear­ning et nous sommes en­trés dans un pro­ces­sus to­ta­le­ment em­pi­rique de tests et de me­sures. Ce qui est beau­coup moins tech­nique ! Sur cette cons­truc­tion s’est éla­bo­ré ce self- ser­vice de pré­pa­ra­tion de don­nées par tests suc­ces­sifs. Il a connu une ra­pide adop­tion dans le sec­teur des ser­vices fi­nan­ciers. La so­lu­tion s’est en­ri­chie de la pos­si­bi­li­té d’uti­li­ser ECS d’Ama­zon pour créer des mo­dèles. Dans la re­cherche le deep lear­ning est le su­jet du mo­ment et il est ex­trê­me­ment em­pi­rique. Ce­la a per­mis ce­pen­dant des pro­grès re­mar­quables dans di­vers do­maines comme la tra­duc­tion. Com­pa­ra­ti­ve­ment à une tra­duc­tion ma­nuelle, un mo­dèle lin­guis­tique éla­bo­ré uti­li­sant des ré­seaux de neu­rones ar­rive à de bien meilleurs ré­sul­tats. Ce­la existe dé­jà en pro­duc­tion. Ce­la fonc­tionne aus­si pour le Big Da­ta, il suf­fit de mettre en place des cycles de puces gra­phiques sur Ama­zon pour ob­te­nir la puis­sance de cal­cul né­ces­saire. Ce ne sont pas les ma­thé­ma­tiques le dé­fi de l’opé­ra­tion, mais la ges­tion de l’ex­pé­ri­men­ta­tion. Il faut tra­cer en évi­tant de bâ­tir de mau­vais mo­dèles lors des tests. Il existe de ma­gni­fiques théo­ries sur le su­jet mais nous n’avan­çons pas énor­mé­ment dans le do­maine. Le pro­blème est la ges­tion de la don­née, la ges­tion de l’ex­pé­ri­men­ta­tion sur la ges­tion de la don­née. Les don­nées sont struc­tu­rées mais dans une base on peut avoir des don­nées qui ont le même nom. Nous avons deux des­crip­tions dif­fé­rentes de la même chose. De ce fait les en­tre­prises n’ont pas as­sez de don­nées pour en­traî­ner les al­go­rithmes et les mo­dèles ap­pli­qués. Nous pou­vons ce­pen­dant avoir une phi­lo­so­phie dif­fé­rente et ap­pli­quer un en­traî­ne­ment ac­tif. Nous avons des cer­ti­tudes sur cer­taines choses. Pour­quoi ne pas ap­pli­quer l’en­traî­ne­ment que sur les am­bi­guï­tés. Les ques­tions se­raient bien meilleures lors de cette phase d’en­traî­ne­ment. Je suis à Paris pour in­ter­ve­nir lors d’un col­loque sur cette ques­tion avec une pré­sen­ta­tion sur le contexte de la don­née, un su­jet de dé­bat et de re­cherche au­jourd’hui. »

DE NOM­BREUX AUTRES SU­JETS DE RE­CHERCHE

In­ter­ro­gé sur les autres su­jets im­por­tants du mo­ment et comment il consi­dère les avan­cées de l’In­tel­li­gence ar­ti­fi­cielle et si elle peut s’ap­pli­quer dans une cer­taine me­sure pour au­to­ma­ti­ser les opé­ra­tions dans l’ou­til de pré­pa­ra­tion des don­nées de Tri­fac­ta, Joe Hel­ler­stein ré­pond : « Il y a dif­fé­rentes in­tel­li­gences gé­né­rales. Le pro­blème est le transfert de l’en­sei­gne­ment de l’une à l’autre. Il existe quelques exemples. Ce­pen­dant la va­leur d’un mo­dèle pro­prié­taire pro­vient sur­tout de la ma­nière dont il a été en­traî­né qui est unique. Une re­com­man­da­tion, une tra­duc­tion, des scé­na­rios de ques­tion­ne­ment comme dans les chat­bots, il res­te­ra le pro­blème d’en­traî­ner à par­tir de l’en­semble des don­nées de l’en­tre­prise. Il est très com­pli­qué d’en­traî­ner de larges jeux de don­nées pour des usages spé­ci­fiques et pour­tant ce deep lear­ning ne peut s’ap­pli­quer que sur de larges jeux de don­nées pour être va­lide. Sans comp­ter sur les pré- re­quis né­ces­saires. La suite d’ou­tils dans l’In­tel­li­gence ar­ti­fi­cielle est ter­rible. À Ber­ke­ley, pour la chaîne d’In­tel­li­gence ar­ti­fi­cielle, nous dé­ve­lop­pons une plate- forme pour at­teindre une grande ro­bus­tesse dans les tests sur l’In­tel­li­gence ar­ti­fi­cielle. Tous les ar­te­facts, chaque élé­ment de l’en­traî­ne­ment, chaque ligne de code suit un pro­cess ex­pé­ri­men­tal pré­cis. Il fau­drait peut- être ra­len­tir le pro­cess pour avoir la ca­pa­ci­té de re­pro­duire de réelles ex­pé­ri­men­ta­tions scien­ti­fiques. Mais ce­la reste com­pli­qué du fait que les chan­ge­ments mettent au dé­fi tout ce qui tourne au­tour du contexte de la don­née. Pour ob­te­nir un meilleur Ma­chine Lear­ning dans les ans, ce­la va res­ter en­core très em­pi­rique. » Il ne croit pas vrai­ment non plus à une en­tre­prise qui soit ca­pable de prendre des dé­ci­sions sur des opé­ra­tions à très haut ni­veau de ma­nière au­to­nome ou juste sur une spé­cia­li­sa­tion comme la sup­ply chain. Mais plus à des ap­proches de self- ser­vice adap­tées à l’en­tre­prise et pense que ce­la se­ra le su­jet de conver­sa­tion jus­qu’en 2020. Il ex­plique cette in­tui­tion par le fait que ce­la existe dé­jà dans l’in­fra­struc­ture et que ce­la va ar­ri­ver ra­pi­de­ment dans des ou­tils comme ceux de Tri­fac­ta. Il ajoute : « Nous al­lons in­ter­ro­ger notre ca­pa­ci­té d’in­no­va­tion dans ce sens. » ❍

Newspapers in French

Newspapers from France

© PressReader. All rights reserved.