Des tech­no­lo­gies pour dif­fé­rentes uti­li­sa­tions

COMME NOUS VE­NONS DE LE VOIR, LES TECH­NO­LO­GIES QUI PER­METTENT DE TRAI­TER DES DON­NÉES EN MASSE SONT NOM­BREUSES. CHA­CUNE A SA SPÉ­CIA­LI­TÉ ET S’ADAPTE À TEL OU TEL JEU DE DON­NÉES, À TEL OU TEL TEMPS D’ANA­LYSE. RE­VUE DES DIF­FÉ­RENTES SPÉ­CIA­LI­TÉS DES TECH­NO­LO­GIE

L'Informaticien - - SOMMAIRE - B. G.

Hadoop re­monte au pro­gramme Nutch dé­ve­lop­pé par Doug Cut­ting, alors chez Ya­hoo. Le ser­vice de re­cherche a conser­vé le nom de Nutch et le sto­ckage et le trai­te­ment des don­nées est de­ve­nu Hadoop du nom de la pe­luche de son en­fant. Ce sys­tème ap­porte de nom­breux avan­tages du fait qu’il peut sto­cker et trai­ter d’im­por­tants vo­lumes de don­nées. La mon­tée en puis­sance d’In­ter­net et de l’IoT ont fait que les don­nées peu ou non struc­tu­rées ont énor­mé­ment gon­flé dans les en­tre­prises. Hadoop sem­blait alors la so­lu­tion idéale pour sto­cker et trai­ter ce mon­ceau de don­nées. On peut y ajou­ter d’autres types de don­nées non struc­tu­rées comme les textes, les images et les vi­déos. De plus, il n’est pas né­ces­saire de trai­ter les don­nées avant de les sto­cker. L’ex­pé­rience a ce­pen­dant dé­mon­tré que Hadoop n’était pas adap­té à tous les cas d’uti­li­sa­tion. La so­lu­tion convient aux re­quêtes d’in­for­ma­tion simples et aux pro­blèmes pou­vant être di­vi­sés en uni­tés in­dé­pen­dantes. En re­vanche, elle n’est pas ef­fi­cace pour les tâches ana­ly­tiques ité­ra­tives et in­ter­ac­tives. Les noeuds ne com­mu­niquent pas entre eux, et les al­go­rithmes ité­ra­tifs re­quièrent de mul­tiples phases de map­shuffle et de tri pour com­plé­ter leurs tâches. De nom­breux fi­chiers sont créés entre les phases MapRe­duce, et cette pro­gram­ma­tion ne convient pas pour les cal­culs ana­ly­tiques avan­cés. Il faut y ajou­ter un manque de com­pé­tences sur le mar­ché au­tour de Ja­va et Hadoop, ce qui li­mite le dé­ploie­ment dans les en­tre­prises. La so­lu­tion est sur­tout em­ployée comme un sto­ckage peu cher ou comme so­lu­tion d’ar­chi­vage. Des en­tre­prises l’uti­lisent comme plate- forme de test ou Da­ta Lake pour sto­cker des don­nées brutes à des­ti­na­tion des ana­lystes ou comme com­plé­ment à un da­ta­wa­re­house exis­tant. Les prin­ci­pales ap­pli­ca­tions connues sont prin­ci­pa­le­ment des mo­teurs de re­com­man­da­tion comme ce­lui de Net­flix ou de Lin­ke­din lors­qu’ils vous pro­posent des offres d’em­ploi. Dis­po­nible de­puis dé­cembre der­nier, la ver­sion 3 de la plate- forme amène quelques nou­veau­tés in­té­res­santes comme le sup­port de plu­sieurs na­me­nodes, des puces gra­phiques et des disques par Yarn et l’in­té­gra­tion de l’era­sure co­ding dans le sys­tème de fi­chiers HDFS. Pour re­mé­dier aux dif­fé­rents pro­blèmes d’Hadoop faible per­for­mance, des re­quêtes in­ter­ac­tives et ité­ra­tives et pal­lier le manque de com­pé­tences, les édi­teurs de l’éco­sys­tème se sont orien­tés vers d’autres mo­teurs de re­quê­tage plus per­for­mants. Tout d’abord il y a eu Im­pa­la de Clou­de­ra qui aug­men­tait les per­for­mances d’un fac­teur 10, ren­dant les re­quêtes plus ra­pides mais sur­tout s’ap­pro­chant de l’in­ter­ac­tif au­to­ri­sant de pra­ti­quer des ana­lyses as­sez avan­cées. Uti­li­sant SQL, le mo­teur évi­tait d’em­bau­cher des res­sources chères et rares sur le mar­ché. D’autres mo­teurs avaient dé­jà re­pris ce der­nier point : Pigs, Hive SQL… Te­ra­da­ta pro­pose même un mo­teur SQL qui opère di­rec­te­ment dans le da­ta lake d’Hadoop.

Spark s’im­pose

De­puis l’éco­sys­tème s’est lar­ge­ment ran­gé sous la ban­nière de Spark, un mo­teur glo­bal pour le trai­te­ment de très gros vo­lumes de don­nées. En mé­moire ce mo­teur fait 100 fois mieux que Map/ Re­duce et 10 fois mieux sur disques. La plate- forme sup­porte de plus de nom­breux lan­gages : Py­thon, Sca­la, Ja­va.

Le mo­teur com­bine SQL, Da­ta frames, MLib pour le Ma­chine Lear­ning, Gra­phX pour les ap­pli­ca­tions de graphe, et Spark Strea­ming pour les flux de don­nées. Il peut fonc­tion­ner dans tous les types d’en­vi­ron­ne­ment : sur site, Cloud, contai­ners… Le pro­jet bé­né­fi­cie en plus d’une im­por­tante com­mu­nau­té très ac­tive. Sa der­nière ver­sion ajoute le trai­te­ment conti­nu sur des flux struc­tu­rés ce qui au­to­rise des trai­te­ments plus ra­pides sur cer­tains flux de don­nées com­pa­ra­ti­ve­ment à l’uti­li­sa­tion du mi­cro- batch ori­gi­nel de Spark. Les la­tences sont dé­sor­mais plus faibles avec l’uti­li­sa­tion de cette nou­velle fonc­tion. D’ailleurs jus­qu’à pré­sent l’éco­sys­tème se tour­nait vers Storm ou Flink lors­qu’il s’agis­sait de réa­li­ser des trai­te­ments conti­nus. La so­lu­tion est plu­tôt dé­vo­lue aux ap­pli­ca­tions de Ma­chine Lear­ning. Spark est tout à fait adap­té pour les cam­pagnes de mar­ke­ting en temps réel, les re­com­man­da­tions de pro­duits en ligne, la cy­ber­sé­cu­ri­té et la sur­veillance des logs ma­chine. Storm per­met de dé­ve­lop­per sous Hadoop des ap­pli­ca­tions qui traitent les don­nées en temps réel ou presque en temps réel. Cette so­lu­tion a pour ori­gine Twit­ter et est uti­li­sée chez les grands four­nis­seurs du Web comme Ya­hoo, Grou­pon, Ali­ba­ba et Bai­du. Flink est un mo­teur d’ana­lyse des flux ( strea­ming). Bouygues Té­lé­com, Uber, Ali­ba­ba uti­lisent Flink qui est par­ti­cu­liè­re­ment adap­té au monde de l’e- com­merce ; Ali­ba­ba uti­lise la tech­no­lo­gie pour la mise à jour en temps réel des pro­duits et des in­ven­taires.

Le tran­sac­tion­nel hy­bride et le mas­si­ve­ment pa­ral­lèle

Ces deux autres moyens de trai­ter de gros vo­lumes de don­nées sont plus orien­tés vers les don­nées struc­tu­rées et tran­sac­tion­nelles pré­sentes dans l’en­tre­prise. Leur uti­li­sa­tion est donc plus clas­sique et proche de ce que nous connais­sons avec les ou­tils ana­ly­tiques d’au­jourd’hui. Ils com­binent ce­pen­dant des per­for­mances de trai­te­ment et des pos­si­bi­li­tés de les dis­tri­buer qui peuvent lar­ge­ment se com­pa­rer à ce que pro­pose l’éco­sys­tème Hadoop. Work­day, l’édi­teur en SaaS de so­lu­tion RH et fi­nances, uti­lise la so­lu­tion HTAP de Grid­gain pour gé­rer un très gros contrat avec Wal- Mart. De même la banque néer­lan­daise ING s’ap­puie sur Grid­gain pour de nou­veaux services ban­caires. Le mas­si­ve­ment pa­ral­lèle se ca­rac­té­rise par une ap­proche si­mi­laire au HPC ( High Per­for­mance Com­pu­ting). Les so­lu­tions ap­puient des re­cherches de pointe comme le sé­quen­çage de l’ADN ou sou­tiennent des so­lu­tions ana­ly­tiques avan­cées comme dans le pro­gramme Al­phaGo, qui a bat­tu le cham­pion du monde du jeu de Go. Ce type de so­lu­tions est pré­sent dans de nom­breux sec­teurs d’ac­ti­vi­té : au­to­mo­bile, fi­nance, éner­gie, services aux en­tre­prises ou aux par­ti­cu­liers… Sui­vant les be­soins et les uti­li­sa­tions les tech­no­lo­gies pour le Big Da­ta sont dif­fé­rentes sui­vant le temps d’at­tente des ré­sul­tats, les don­nées uti­li­sées, les coûts. Il est à re­mar­quer ce­pen­dant que ce sont les ap­pli­ca­tions au- des­sus de l’in­fra­struc­ture tech­nique qui ap­portent la va­leur et non celle- ci par elle- même. ❍

Newspapers in French

Newspapers from France

© PressReader. All rights reserved.