Que se­ra le Da­ta Warehouse du fu­tur ?.

Que se­ra le À l’heure du triomphe du Big Da­ta, le Da­ta Warehouse des an­nées 90 peut sem­bler un di­no­saure in­for­ma­tique is­su du pas­sé. Or les édi­teurs ne lâchent pas le mor­ceau et si les en­tre­prises com­mu­niquent beau­coup sur le Big Da­ta et l’IA, au fond de

L'Informaticien - - SOMMAIRE - ALAIN CLAPAUD

Chaque an­née, on l’an­nonce mort et en­ter­ré. Le Da­ta Warehouse, avec ses pro­cess d’ali­men­ta­tion batch, sa struc­tu­ra­tion hy­per ri­gide en étoile ou en flo­con, son in­con­tour­nable lan­gage SQL et ses grosses ar­moires dans le da­ta cen­ter est tou­jours là. Bous­cu­lé par Ha­doop, des bases NoSQL bien plus mo­dernes et les ca­pa­ci­tés in­fi­nies du Cloud, l’en­tre­pôt de don­nées a su s’adap­ter et ab­sor­ber toutes ces ré­vo­lu­tions pour sur­vivre.

Le Cloud est en train de s’im­po­ser à tous

Lea­der d’un mar­ché des bases de don­nées es­ti­mé à 50 mil­liards de dol­lars par IDC, Oracle mise sur sa base ins­tal­lée et un large éco­sys­tème de par­te­naires pour conser­ver son lea­der­ship, alors que la concur­rence is­sue de l’Open Source mais aus­si du Cloud bouscule une stra­té­gie de li­cen­cing contrai­gnante et coû­teuse pour ses clients. Face à un mar­ché ten­du, Oracle mise sur la ca­pa­ci­té de sa base de don­nées à por­ter n’im­porte quelles charges : « Notre base de don­nées est mul­ti­rôle » , ex­plique Éric de Smedt, di­rec­teur avant­vente des offres Cloud Da­ta Plat­form et In­fra­struc­ture d’Oracle France. « Elle peut tout aus­si bien sup­por­ter du tran­sac­tion­nel et du dé­ci­sion­nel en uti­li­sant du clus­te­ring, en uti­li­sant Exa­da­ta pour ac­cé­lé­rer les re­quêtes. Avec sa li­cence, le client a la pos­si­bi­li­té de dé­ployer l’un ou l’autre mo­dèle de base de don­nées sur son clus­ter, avec la pos­si­bi­li­té au sein d’une même ma­chine, de dé­dier des noeuds au tran­sac­tion­nel et des noeuds pour le dé­ci­sion­nel. » Les clients tra­di­tion­nels d’Oracle ont tout in­té­rêt à cu­mu­ler les work­loads sur des clus­ters Oracle fac­tu­rés au nombre d’uti­li­sa­teurs et sur­tout à la puis­sance de cal­cul to­tale du clus­ter. Néan­moins, pour faire face à la concur­rence crois­sante du Cloud et des en­tre­prises qui optent de plus en plus pour les so­lu­tions de type AWS Red­shift, Snow­flake ou SQL Da­ta Warehouse sur Azure, Oracle a por­té sa base de don­nées dans le Cloud et af­fiche dé­sor­mais un vaste por­te­feuille d’offres. Des offres hé­ber­gées avec no­tam­ment Oracle Da­ta­base Cloud Ser­vice, Oracle Da­ta­base Exa­da­ta Cloud Ser­vice ; ce por­te­feuille vient de s’en­ri­chir d’une nou­velle

gamme bap­ti­sée Au­to­no­mous, dont le pre­mier ava­tar est dé­dié au Da­ta Warehouse. « Avec cette gamme Au­to­no­mous, l’idée, c’est d’al­ler un cran plus loin sur cette pro­blé­ma­tique da­ta­wa­re­house, avec plus de fonc­tion­na­li­tés liées à la ges­tion de la base de don­nées, d’au­to- tu­ning des dif­fé­rents ser­vices. » Au­to­no­mous Da­ta Warehouse Cloud se veut donc une base de don­nées op­ti­mi­sée pour le Da­ta­wa­re­house, hé­ber­gée sur les ap­pliances Exa­da­ta qui est à la fois au­to- ad­mi­nis­trée avec un au­to- tu­ning des pa­ra­mètres de chaque base de don­nées, au­to- sécurisée avec un chif­fre­ment au­to­ma­tique des don­nées et une ap­pli­ca­tion au­to­ma­tique des patches de sé­cu­ri­té et en­fin au­to­ré­pa­rable. Avec un au­to­pat­ching sans in­ter­rup­tion de ser­vice, Oracle pro­met une dis­po­ni­bi­li­té de 99,995 %, soit de 2,5 mi­nutes d’ar­rêt par mois, an­nonce la bro­chure. Il suf­fit pour l’en­tre­prise de choi­sir le nombre de CPU, la taille de la base de don­nées en Te­ra­oc­tet qu’il va créer puis char­ger ses don­nées, l’ar­gu­ment d’Oracle étant de pou­voir dé­char­ger les DBA des tâches du quo­ti­dien afin que ceux- ci puissent se mettre au ser­vice des mé­tiers pour les ai­der à créer des ap­pli­ca­tions. Autre ac­teur his­to­rique du monde des Da­ta Wa­re­houses, Te­ra­da­ta, dont la pré­sence dans les grandes banques fran­çaises et ac­teurs de la grande dis­tri­bu­tion re­monte à l’époque des ar­moires de sto­ckage NCR… Au­jourd’hui, l’Amé­ri­cain conti­nue de pro­po­ser sa base de don­nées SQL afin de sto­cker de gros vo­lumes de don­nées, mais il mise lui aus­si sur le Cloud afin de s’as­su­rer un re­lais de crois­sance pour les pro­chaines an­nées : « Le Cloud est un su­jet im­por­tant pour nous, mais nous ne fai­sons pas du Cloud pour faire du Cloud » , ex­pli­quait, lors du der­nier Te­ra­da­ta Summit de Londres, Oli­ver Rat­zes­ber­ger, Chief Ope­ra­ting Of­fi­cer de Te­ra­da­ta : « Notre ob­jec­tif est de dé­li­vrer des ser­vices ana­ly­tiques avan­cés sur le mo­dèle As a Ser­vice. C’est ce qui est le plus com­plexe à at­teindre pour les en­tre­prises. Celles- ci pré­fèrent se concen­trer sur le Business et non plus sur les in­fra­struc­tures IT qui vont por­ter leurs ap­pli­ca­tions ana­ly­tiques, de la même fa­çon qu’elles n’as­semblent pas el­les­mêmes les voi­tures dont ont be­soin leurs col­la­bo­ra­teurs pour

tra­vailler. » Le COO a no­tam­ment rap­pe­lé que Te­ra­da­ta a vé­ri­ta­ble­ment ini­tié sa stra­té­gie cloud voi­ci trois ans avec son propre Cloud, In­tel­liC­loud, et des offres Te­ra­da­ta Da­ta­base, As­ter Ana­ly­tics et Ha­doop en mode As a Ser­vice, tan­dis que l’édi­teur adap­tait ses so­lu­tions à AWS et Mi­cro­soft Azure et en­fin pro­po­sait celles- ci sur VM­ware pour les en­tre­prises pri­vi­lé­giant le Cloud pri­vé. Oli­ver Rat­zes­ber­ger

pré­cise : « Notre prin­cipe de de­si­gn, c’est d’avoir exac­te­ment le même code où qu’il soit dé­ployé. Quand vous pre­nez un da­ta­wa­re­house on- pre­mise, vous pou­vez le dé­po­ser sur AWS, sur Azure, il n’y au­ra pra­ti­que­ment pas d’adap­ta­tions à ap­por­ter. Il fau­dra sim­ple­ment te­nir compte des li­mi­ta­tions de tel ou tel four­nis­seur. Notre tech­no­lo­gie de vir­tua­li­sa­tion offre la ca­pa­ci­té de connec­ter dif­fé­rentes ins­tances de sys­tèmes dif­fé­rents, prendre un Da­ta­mart vir­tuel sur un en­vi­ron­ne­ment et le dé­po­ser sur un autre. » Ces briques d’in­fra­struc­ture au­jourd’hui dis­po­nibles se­lon les trois mo­dèles de dé­ploie­ments, l’Amé­ri­cain s’at­tache main­te­nant à mon­ter dans la chaîne de va­leur en pro­po­sant des so­lu­tions ana­ly­tiques com­plètes qui of­fri­ront un sup­port à di­verses tech­no­lo­gies ve­nues du Big Da­ta comme Spark, Ten­sorF­low, Gluon, Thea­no et le sup­port des lan­gages SQL, SAS, Py­thon et R.

Les pure players du Cloud bous­culent les lignes

L’in­té­gra­tion du Cloud dans les road­maps d’Oracle comme de Te­ra­da­ta est si­gni­fi­ca­tif du glis­se­ment du mar­ché vers le Cloud et no­tam­ment vers les offres de bases de don­nées et de Da­ta Warehouse As a Ser­vice. En ef­fet, la mon­tée en puis­sance de Google avec son offre Cloud BigQue­ry et d’Ama­zon Web Ser­vices avec Red­Shift est en train de faire va­ciller le mar­ché. Même si cer­tains iro­nisent sur le fait que Red­shift n’a rien d’une base de don­nées « Cloud na­tive » comme le clame Ama­zon, mais n’est que le re­cy­clage sur une for­mule As a Ser­vice de la base ParAc­cel, une start- up en dé­con­fi­ture et qui a été re­prise en 2013 par Ac­tian. Néan­moins, nombre de start- up misent sur ces so­lu­tions cloud pour créer leurs pre­miers en­tre­pôts de don­nées et des en­tre­prises telles que le Nas­daq, NTT Do­co­mo, John­son& John­son,

ont aus­si mi­sé sur Red­Shift, tan­dis que BNP Pa­ri­bas For­tis, Mo­to­ro­la, Fer­re­ro ont pour leur part fait le choix de BigQue­ry. Outre les géants du Cloud, des chal­len­gers sont en train d’émer­ger sur ce mar­ché du « Big Da­ta as a Ser­vice » . Outre l’Amé­ri­cain Ca­ze­na, Phe­mi Sys­tems a fait le choix de se po­si­tion­ner sur le mar­ché de la don­née de san­té. Néan­moins, des Fran­çais font beau­coup par­ler d’eux dans la Valley, où ils se sont ins­tal­lés, ce sont Thier­ry Cruanes et Be­noît Da­ge­ville, les fon­da­teurs de Snow­flake Com­pu­ting. Ces an­ciens d’Oracle ont dé­jà le­vé près de 473 mil­lions de dol­lars pour me­ner à bien leur pro­jet de Da­ta Warehouse as a Ser­vice de nou­velle gé­né­ra­tion. « La source de notre ins­pi­ra­tion était la frus­tra­tion que nous avions chez Oracle à ne pas pou­voir ré­pondre aux be­soins des en­tre­prises qui sou­haitent sto­cker d’énormes vo­lumes de don­nées sans de­voir les struc­tu­rer, non pas pour les uti­li­ser dans l’immédiat, mais qui doivent être conser­vées pour plus tard » , ex­plique Thier­ry Cruanes. « Même si Oracle avait une tech­no­lo­gie haute- per­for­mance avec Exa­da­ta, nous sen­tions bien que les en­tre­prises n’étaient pas in­té­res­sées par ce dis­cours. » Consi­dé­rant que les offres qui sont ac­tuel­le­ment dis­po­nibles sur le Cloud sont es­sen­tiel­le­ment is­sues du por­tage de bases de don­nées exis­tantes, les deux in­gé­nieurs dé­cident alors de dé­ve­lop­per un mo­teur « from scratch » afin de ré­pondre aux be­soins ana­ly­tiques mo­dernes. « L’ar­chi­tec­ture de Snow­flake est très in­no­vante dans le sens où une base de don­nées tra­di­tion­nelle a un sys­tème de sto­ckage, un sys­tème de pro­tec­tion, un sys­tème tran­sac­tion­nel, etc. Une même ma­chine va avoir l’in­ter­face pour les clients, le com­pi­la­teur, l’in­jec­teur de mé­ta­da­ta, la ges­tion des Buf­fer Caches, le Que­ry Pro­ces­sing, la ges­tion des tran­sac­tions, le tout dans la même boîte.

Pour « sca­ler » une telle ar­chi­tec­ture, il faut ré­pli­quer cette boîte. L’ar­chi­tec­ture que nous avons ima­gi­né pour Snow­flake, c’est de prendre cha­cune de ces com­po­santes et les ex­plo­ser de ma­nière ho­ri­zon­tale sur plu­sieurs boîtes. Le sys­tème de sto­ckage peut être ex­plo­sé sur de mul­tiples boîtes pour ac­cé­der à S3, de même que le sys­tème de Que­ry Pro­ces­sing qui est ré­par­ti sur plu­sieurs clus­ters, idem pour la ges­tion des uti­li­sa­teurs, la ges­tion des ses­sions, etc. » Forts de cette ar­chi­tec­ture de type Sha­red Da­ta, les concep­teurs af­firment pou­voir of­frir des per­for­mances mul­ti­pliées par 200 par rap­port aux so­lu­tions tra­di­tion­nelles et ré­duire le coût de sto­ckage de 80 %. La so­lu­tion fait beau­coup par­ler d’elle et de nom­breuses en­tre­prises ont ten­té l’aven­ture Snow­flake dont Adobe, De­li­ve­roo, Ca­pi­tal One. Il est d’au­tant plus fa­cile de vé­ri­fier que les pro­messes de Snow­flake sont te­nues que la so­lu­tion est dis­po­nible sur de nom­breuses ré­gions AWS et que la start- up dis­tri­bue gé­né­reu­se­ment les cré­dits d’usage.

SQL, même pas mort !

Né dans les an­nées 70 – une éter­ni­té dans l’échelle de temps de l’in­for­ma­tique – le SQL sem­blait être ame­né à dis­pa­raître au mo­ment de l’ap­pa­ri­tion de la nou­velle gé­né­ra­tion des bases de don­nées NoSQL. Pour­tant, ce bon vieux SQL est tou­jours bien pré­sent dans les ar­chi­tec­tures dé­ci­sion­nelles et les so­lu­tions ana­ly­tiques de nou­velle gé­né­ra­tion telles que Ta­bleau ou Qlik s’ap­puient tou­jours sur le lan­gage fos­sile pour re­quê­ter les sources de don­nées. De plus, la dis­po­ni­bi­li­té de bases de don­nées SQL dans le Cloud ne fe­ra que pé­ren­ni­ser sa pré­sence dans le sys­tème d’in­for­ma­tion des en­tre­prises à l’ave­nir, n’en dé­plaise à toutes les autres so­lu­tions NoSQL qui se clament plus per­for­mantes et mieux adap­tées aux gros vo­lumes de don­nées. C’est l’ana­lyse de Vincent Heu­schling, fon­da­teur de la so­cié­té de ser­vices spé­cia­li­sée en Big Da­ta et Ma­chine Lear­ning Af­fi­ni- Tech : « Étant don­né les per­for­mances ob­te­nues au­jourd’hui sur les bases de don­nées SQL dans le Cloud, SQL ne va pas dis­pa­raître de si­tôt. Ce­la- dit, la pré­ag­gre­ga­tion au tra­vers des sché­mas en étoile

et les lan­gages mul­ti­di­men­sion­nels pour faire de l’Olap au­ront beau­coup moins d’im­por­tance à l’ave­nir. » Alors qu’un trai­te­ment de plu­sieurs mil­liards de lignes ne prend que quelques se­condes sur Snow­flake ou BigQue­ry, la contrainte de struc­tu­rer les don­nées n’a plus lieu d’être.

2018, l’hy­bri­da­tion de­vient la règle

Si les start- up qui partent d’une feuille blanche vont pri­vi­lé­gier d’em­blée ce type de so­lu­tions in­no­vantes, dans les autres en­tre­prises, la co­exis­tence entre les an­ciens et les mo­dernes va don­ner nais­sance à des ar­chi­tec­tures par­fois éton­nantes. Il n’est pas rare de voir une en­tre­prise mettre à dis­po­si­tion de ses ana­lystes un self- ser­vice BI et dont les clients Po­wer BI ac­cèdent à des Da­ta­marts sto­ckés sur SQL Ser­ver eux- mêmes ali­men­tés par le Da­ta Lake de l’en­tre­prise… Les lignes entre bases de don­nées tran­sac­tion­nelles, Da­ta Warehouse de la gé­né­ra­tion SQL et in­fra­struc­tures Big Da­ta sont en train de se brouiller. L’exemple de la per­cée du mo­dèle de sto­ckage in- me­mo­ry dans le do­maine du dé­ci­sion­nel en est cer­tai­ne­ment la preuve la plus évi­dente. Cette tech­no­lo­gie a été in­tro­duite sur le mar­ché par Qlik. Dé­sor­mais, tous les édi­teurs l’ont in­té­grée à leurs bases de don­nées et si beau­coup consi­dèrent l’ap­proche comme trop li­mi­tée en termes de vo­lu­mé­trie pour les grands Da­ta Warehouse, avec HA­NA, SAP a dé­mon­tré la per­ti­nence de l’ap­proche au­près des uti­li­sa­teurs de SAP BW. SAP ex­ploite dé­sor­mais l’in- me­mo­ry sur le tran­sac­tion­nel, of­frant une al­ter­na­tive per­for­mante au re­la­tion­nel clas­sique pour faire de l’OLTP. Après cette nou­velle gé­né­ra­tion cloud, peut- être que les or­di­na­teurs pho­to­niques de de­main tels que les ima­gine HPE, des ma­chines équi­pées de mil­liers de Yot­ta­oc­tets de mé­moire mem­ris­tor si­gne­ront l’es­sor d’une nou­velle gé­né­ra­tion de Da­ta Warehouse 100 % temps réel. Ren­dez- vous dans dix ans pour la pro­chaine ré­vo­lu­tion ! ❍

Créer un Da­ta Warehouse sur Oracle Exa­da­ta en quelques clics, c’est dé­sor­mais pos­sible avec l’offre Oracle Au­to­no­mous Da­ta Warehouse Cloud, pre­mière base de don­nées de la nou­velle gamme Oracle Au­to­no­mous.

Les ap­pliances spé­cia­li­sées ont long­temps ré­gné en maître dans le do­maine des grands Da­ta Warehouse. Elles cèdent main­te­nant le pas au Cloud.

Afin de concur­ren­cer les édi­teurs his­to­riques du Da­ta Warehouse, Snow­flake a dé­ve­lop­pé une ar­chi­tec­ture en par­tant d’une feuille blanche.

Par­mi les sources po­ten­tielles de don­nées de Mi­cro­soft Po­wer BI, les mul­tiples ser­vices de sto­ckage de don­nées sup­por­tés par Azure.

Une ar­chi­tec­ture type d’ali­men­ta­tion d’un Da­ta Warehouse Red­shift sur Ama­zon Web Ser­vices.

SAP HA­NA a ap­por­té les atouts du sto­ckage in- me­mo­ry au­près des uti­li­sa­teurs de SAP BW.

Newspapers in French

Newspapers from France

© PressReader. All rights reserved.