Dataops: дан­ные в сти­ле Agile

Вслед за по­все­мест­ным внед­ре­ни­ем прак­тик Devops при­шла оче­редь при­ме­не­ния ме­то­дов Agile при ра­бо­те с боль­ши­ми дан­ны­ми.

Otkrytye sistemy. SUBD. - - СОДЕРЖАНИЕ - Дмит­рий Вол­ков, Ан­дрей Ни­ко­ла­ен­ко

Вслед за по­все­мест­ным внед­ре­ни­ем прак­тик Devops при­шла оче­редь при­ме­не­ния ме­то­дов Agile при ра­бо­те с боль­ши­ми дан­ны­ми.

Клю­че­вые сло­ва: ин­те­гра­ция раз­ра­бот­ки и экс­плу­а­та­ции, боль­шие дан­ные Keyworsds: Dataops, Devops, Integration of development and operation, Big Data

Впер­вые тер­мин Dataops (от Data Operations) про­зву­чал в 2015 го­ду в бло­ге Эн­ди Пал­ме­ра, со­ос­но­ва­те­ля ком­па­нии Tamr, при­ме­ча­тель­ной тем, что дру­гим ее со­ос­но­ва­те­лем был Май­кл Сто­ун­брей­кер. В мар­те 2017 го­да на кон­фе­рен­ции Strata+hadoop World, ор­га­ни­зу­е­мой O'reilly, о Dataops за­го­во­ри­ли сно­ва, а за­тем тер­мин был за­фик­си­ро­ван в кни­ге [1], ав­то­ры ко­то­рой че­ты­ре го­да про­ра­бо­та­ли в ко­ман­де Facebook Data Service Team над про­ек­том Apache Hive. Дви­же­ние SQL для Hadoop, на­ча­тое Hive, бы­ло глав­ным об­ра­зом на­це­ле­но на предо­став­ле­ние ана­ли­ти­кам удоб­ных средств де­мо­кра­ти­за­ции боль­ших дан­ных. Не­смот­ря на то что на рын­ке уже име­ет­ся пул ин­стру­мен­тов об­ра­бот­ки боль­ших дан­ных, Hadoop был и до сих пор оста­ет­ся труд­ным да­же для ин­же­не­ров по дан­ным, не го­во­ря уже о биз­не­се, ко­то­рый не же­ла­ет тра­тить вре­мя на его осво­е­ние, а в ре­зуль­та­те в це­поч­ке «по­то­ки ге­те­ро­ген­ных дан­ных — ин­же­не­ры по дан­ным — ко­неч­ные поль­зо­ва­те­ли» об­ра­зу­ет­ся «бу­ты­лоч­ное гор­ло». Од­на­ко од­но­го толь­ко сред­ства до­сту­па к дан­ным еще недо­ста­точ­но для устра­не­ния уз­ко­го ме­ста — тре­бу­ет­ся обес­пе­чить сбор и под­го­тов­ку дан­ных, управ­лять экс­плу­а­та­ци­ей и свое­вре­мен­но ре­а­ги­ро­вать на рост и па­де­ние на­гру­зок и объ­е­мов. В кон­це кон­цов, нуж­но снаб­жать ана­ли­ти­ков «све­жи­ми» дан­ны­ми, а раз­ра­бот­чи­ков — «жи­вы­ми за­да­ча­ми», в ко­рот­кие сро­ки при­во­дя­щи­ми к ощу­ти­мым для биз­не­са ре­зуль­та­там.

В от­ли­чие от мно­гих мод­ных тер­ми­нов, рас­шиф­ро­вы­вать «Dataops» не при­хо­дит­ся — тем, кто впер­вые его услы­шал, по­нят­но, что речь идет об ин­те­гра­ции ана­ли­ти­ки, раз­ра­бот­ки и экс­плу­а­та­ции в усло­ви­ях боль­ших дан­ных, или «Devops для Big Data» (хо­тя ню­ан­сы в ин­тер­пре­та­ции де­та­лей неиз­беж­ны). Ком­па­ни­ям, биз­нес ко­то­рых стро­ит­ся на боль­ших дан­ных, при­хо­дит­ся чуть ли не еже­днев­но вво­дить в экс­плу­а­та­цию но­вые сер­ви­сы на ос­но­ве дан­ных. По­доб­ные прак­ти­ки вполне есте­ствен­ны и при­ме­ня­лись еще до то­го, как этот ак­ро­ним по­явил­ся в эфи­ре. Од­на­ко в чис­ле пер­вых со­сто­я­ние «нир­ва­ны» при об­ще­нии с дан­ны­ми бла­го­да­ря Dataops про­чув­ство­ва­ли ebay, Twitter, Netflix, Linkedin и Uber, ко­то­рые на при­ме­ре Facebook уви­де­ли, что дан­ные — это власть, ес­ли уметь ра­бо­тать с ни­ми, опи­ра­ясь не толь­ко на тех­но­ло­гии, а ме­няя всю куль­ту­ру, как это и преду­смат­ри­ва­ет кон­цеп­ция Dataops. В свя­зи с этим да­же уди­ви­тель­но, что тер­мин по­явил­ся от­но­си­тель­но позд­но. Лишь в кон­це 2017 го­да он проч­но во­шел в лек­си­кон спе­ци­а­ли­стов по дан­ным, а ана­ли­ти­ки Gartner «уза­ко­ни­ли» по­ня­тие в сво­ем Ит-глос­са­рии, за­клю­чив: «Dataops — центр сбо­ра и рас­про­стра­не­ния дан­ных с ман­да­том на кон­тро­ли­ру­е­мый до­ступ к де­таль­ным кор­по­ра­тив­ным дан­ным при обес­пе­че­нии их кон­фи­ден­ци­аль­но­сти, огра­ни­че­ний на ис­поль­зо­ва­ние и со­блю­де­ния их це­лост­но­сти».

С при­ня­ти­ем кон­цеп­ции и по­ни­ма­ни­ем ее по­лез­но­сти про­блем не бы­ло, но, как и с Devops [2], ис­то­рия по­вто­ри­лась. Ко­ман­ды по дан­ным столк­ну­лись с те­ми же слож­но­стя­ми, что и раз­ра­бот­чи­ки при­ло­же­ний, с той лишь раз­ни­цей, что вме­сто сте­ны меж­ду про­грам­ми­стом и биз­не­сом об­на­ру­жи­лась сте­на меж­ду ис­сле­до­ва­те-

ля­ми дан­ных (data scientists), со­зда­ю­щи­ми ана­ли­ти­че­ские мо­де­ли для из­вле­че­ния по­лез­ных све­де­ний из боль­ших мас­си­вов дан­ных, биз­нес-ана­ли­ти­ка­ми и ли­ца­ми, при­ни­ма­ю­щи­ми ре­ше­ния. Ес­ли в слу­чае с Devops во вла­сти ИТ оста­ва­лись при­ло­же­ния, то для Dataops это уже от­но­сит­ся к дан­ным. Но де­ло в том, что неза­ви­си­мо от «ум­но­сти» и ква­ли­фи­ка­ции ис­сле­до­ва­те­лей дан­ных они ни­чем не смо­гут по­мочь биз­не­су, ес­ли не до­бу­дут нуж­ные дан­ные и во­вре­мя не пе­ре­да­дут ре­зуль­та­ты их об­ра­бот­ки ли­цам, при­ни­ма­ю­щим ре­ше­ние. Не сто­ит за­бы­вать, что дан­ные неста­тич­ны и од­них тех­но­ло­гий их об­ра­бот­ки недо­ста­точ­но — от всей ор­га­ни­за­ции тре­бу­ют­ся ма­нев­рен­ность и во­ля к из­ме­не­нию со­гла­со­ван­но­сти по­ступ­ле­ний по­то­ков дан­ных, поз­во­ля­ю­щей ис­клю­чить «за­стой во­ды» в озе­ре кор­по­ра­тив­ных дан­ных.

Для то­го что­бы по-на­сто­я­ще­му де­мо­кра­ти­зи­ро­вать дан­ные (рис. 1), нуж­но пре­об­ра­зо­вать как сред­ства до­сту­па к ним, так и ин­фра­струк­ту­ру и сер­вис­ную мо­дель их до­став­ки. Dataops — спо­соб управ­ле­ния дан­ны­ми, обес­пе­чи­ва­ю­щий ком­му­ни­ка­ции и ин­те­гра­цию уже име­ю­щих­ся дан­ных, ко­манд и си­стем, поз­во­ля­ю­щий по­лу­чить пре­иму­ще­ства от из­ме­не­ния, пе­ре­строй­ки орг­струк­ту­ры и тех­но­ло­гий для под­держ­ки вза­и­мо­дей­ствия меж­ду те­ми, кто со­би­ра­ет и го­то­вит дан­ные, и те­ми, кто их ана­ли­зи­ру­ет и при­ме­ня­ет в биз­не­се. Это озна­ча­ет, что тре­бу­ет­ся боль­ше гиб­ко­сти при ра­бо­те с дан­ны­ми и что фра­за «тот, кто вла­де­ет дан­ны­ми, вла­де­ет ми­ром» уже не про­сто ме­та­фо­ра — имен­но дан­ные ста­но­вят­ся се­год­ня мейн­стри­мом.

Успех Devops — это ин­те­гра­ция под­раз­де­ле­ний раз­ра­бот­ки и опе­ра­ци­он­ной де­я­тель­но­сти, в усло­ви­ях тра­ди­ци­он­ных ИТ функ­ци­о­ни­ро­вав­ших от­дель­но. Со­глас­но ка­но­нам Devops, раз­вер­ты­ва­ние и экс­плу­а­та­ция про­дук­та про­хо­дят быст­ро: объ­еди­нен­ные ко­ман­ды опе­ра­тив­но ло­ка­ли­зу­ют и ис­прав­ля­ют про­бле­мы по ме­ре их об­на­ру­же­ния. Dataops за­им­ству­ет эту идею, при­ме­няя ее на всем про­тя­же­нии жиз­нен­но­го цик­ла дан­ных: непре­рыв­ная ин­те­гра­ция, до­став­ка и об­ра­бот­ка при­ме­ня­ют­ся в де­я­тель­но­сти ис­сле­до­ва­те­лей дан­ных, ко­ман­ды ко­то­рых ис­поль­зу­ют сред­ства управ­ле­ния вер­си­я­ми, та­кие как Github, для от­сле­жи­ва­ния и из­ме­не­ния ко­да и тех­но­ло­гии ти­па Docker и Kubernetes для со­зда­ния сред ана­ли­за и раз­вер­ты­ва­ния мо­де­лей. Ино­гда та­кой стиль ра­бо­ты на­зы­ва­ют непре­рыв­ной ана­ли­ти­кой (рис. 2). На­при­мер, в Facebook об­ра­зо­ва­на цен­тра­ли­зо­ван­ная ко­ман­да по дан­ным, а в каж­дой про­дук­то­вой ко­ман­де име­ет­ся ана­ли­тик — все они на цен­траль­ном фо­ру­ме об­ме­ни­ва­ют­ся сво­и­ми иде­я­ми, что поз­во­ля­ет зна­ни­ям пе­ре­те­кать по всей ком­па­нии (рис. 3).

Тра­ди­ци­он­ные ана­ли­ти­ки фо­ку­си­ру­ют­ся на лю­дях и ин­стру­мен­тах, иг­но­ри­руя про­цес­сы. Это на­по­ми­на­ет уком­плек­то­ван­ную бри­га­ду стро­и­те­лей со все­ми необ­хо­ди­мы­ми ин­стру­мен­та­ми и ма­те­ри­а­ла­ми, но без про­ек­та зда­ния, опи­сы­ва­ю­ще­го по­ря­док вза­и­мо­дей­ствия спе­ци­а­ли­стов раз­лич­но­го про­фи­ля. В кон­тек­сте ана­ли­ти­ки дан­ных по­доб­ный «стро­и­тель­ный» про­ект и есть то, что на­зы­ва­ет­ся Dataops. Ес­ли ко­ман­ды Devops объ­еди­ня­ют­ся под гиб­ким ру­ко­вод­ством с це­лью со­зда­ния ка­че­ствен­но­го ПО, то в Dataops ис­сле­до­ва­те­ли дан­ных и спе­ци­а­ли­сты по экс­плу­а­та­ции вме­сте ра­бо­та­ют в со­от­вет­ствии с по­доб­ной стра­те­ги­ей, фо­ку­си­ру­ясь на дан­ных и ре­зуль­та­тах, по­лу­чен­ных от при­ло­же­ний и си­стем ана­ли­ти­ки.

В об­щем слу­чае в ко­ман­ду ра­бо­ты с дан­ны­ми долж­ны вхо­дить: ана­ли­тик дан­ных (Data Analyst) — спе­ци­а­лист по дан­ным, ра­бо­та­ю­щий в каж­дом ли­ней­ном биз­нес- или опе­ра­ци­он­ном под­раз­де­ле­нии ком­па­нии; ин­же­нер дан­ных (Data Engineer) — спе­ци­а­лист, от­ве­ча­ю­щий за по­став­ку дан­ных в плат­фор­му, из ко­то­рой их чер­па­ют ис­сле­до­ва­те­ли дан­ных и ана­ли­ти­ки; ис­сле­до­ва­тель дан­ных (Data Scientist) — спе­ци­а­лист по ста­ти­сти­ке и ма­шин­но­му обу­че­нию, пред­ла­га­ю­щий мо­де­ли для изу­че­ния дан­ных в со­от­вет­ствии с це­ля­ми биз­не­са; ди­рек­тор по дан­ным (Chief Data Officer) — че­ло­век, кон­тро­ли­ру­ю­щий ра­бо­ту ко­ман­ды по дан­ным, непо­сред­ствен­но под­чи­ня­ю­щий­ся ге­не­раль­но­му или тех­ни­че­ско­му ди­рек­то­ру ком­па­нии. Кро­ме то­го, при­ме­ни­тель­но к Dataops, по край­ней ме­ре на пер­вых по­рах, в ком­па­нии дол­жен быть еще ин­же­нер по экс­плу­а­та­ции (Dataops Engineer), от­ве­ча­ю­щий за непо­сред­ствен­ное при­ме­не­ние тех­ни­че­ских средств Agile и Devops ко все­му про­цес­су ра­бо­ты с дан­ны­ми. Его ос­нов­ная за­да­ча — устра­не­ние ба­рье­ров меж­ду опе­ра­ци­он­ной де­я­тель­но­стью и ана­ли­ти­кой. Он же на пер­вых по­рах мо­жет за­нять ме­сто, тра­ди­ци­он­но от­во­ди­мое в ко­ман­дах Devops ин­же­не­ру по ка­че­ству (Quality Engineer), со­зда­вая ин­фра­струк­ту­ру для ав­то­те­сти­ро­ва­ния, че­рез ко­то­рую долж­ны про­хо­дить все но­вые на­ра­бот­ки, и обес­пе­чи­вая та­ким об­ра­зом «нераз­ру­ша­ю­щий кон­троль», а так­же по­сте­пен­но вклю­чая в куль­ту­ру непре­рыв­но­го управ­ле­ния ка­че­ством всех осталь­ных участ­ни­ков ко­ман­ды по дан­ным.

Вслед за диа­грам­ма­ми Вен­на, на ко­то­рых Devops-ин­же­нер изоб­ра­жал­ся как че­ло­век, объ­еди­ня­ю­щий в се­бе на­вы­ки про­грам­ми­ста, си­стем­но­го ад­ми­ни­стра­то­ра и те­сти­ров­щи­ка, и внешне по­хо­жей на них из­вест­ной трехле­пест­ко­вой диа­грам­мой Дрю Кон­вея, с по­яв­ле­ни­ем Dataops воз­ник­ло ана­ло­гич­ное пред­став­ле­ние об ис­сле­до­ва­те­ле дан­ных как о неком «сверх­че­ло­ве­ке» (рис. 4).

Од­на­ко на прак­ти­ке та­кое со­че­та­ние раз­но­об­раз­ных на­вы­ков в од­ном ли­це вряд ли ре­аль­но — хо­ро­ший спе­ци­а­лист обыч­но глу­бок и ре­зуль­та­ти­вен в чем-то од­ном. Дру­гое де­ло, что куль­ту­ра Dataops на­це­ле­на на то, что­бы все чле­ны ко­ман­ды ощу­ща­ли об­щую от­вет­ствен­ность за ре­зуль­тат и име­ли до­ста­точ­но яс­ное пред­став­ле­ние о ра­бо­те друг дру­га, вла­дея смеж­ны­ми на­вы­ка­ми хо­тя бы на ба­зо­вом уровне. Это поз­во­ли­ло бы под­стра­хо­вать со­се­да, обес­пе­чив вы­пол­не­ние ра­бо­ты не по сво­ей ос-

нов­ной спе­ци­аль­но­сти. Дру­гой по­лез­ный эф­фект от та­кой вза­и­мо­за­ме­ня­е­мо­сти но­сит пе­да­го­ги­че­ский ха­рак­тер: спе­ци­а­лист, со­дер­жа­ние де­я­тель­но­сти ко­то­ро­го мо­гут оце­нить со­рат­ни­ки, бу­дет стре­мить­ся укре­пить ав­то­ри­тет в сво­ей «род­ной» об­ла­сти и де­мон­стри­ро­вать наи­луч­шие ре­зуль­та­ты.

НА ПУ­ТИ К КОМ­ПА­НИИ, УПРАВЛЯЕМОЙ ДАН­НЫ­МИ

В циф­ро­вой эко­но­ми­ке биз­нес уже не мо­жет рас­ти толь­ко фи­зи­че­ски за счет рас­ши­ре­ния и при­об­ре­те­ний — ос­нов­ным спо­со­бом его мас­шта­би­ро­ва­ния ста­но­вит­ся оп­ти­ми­за­ция биз­нес-мо­де­лей на ос­но­ве дан­ных. В ко­неч­ном ито­ге Dataops, как и Devops, — это сред­ство для по­стро­е­ния ком­па­нии, управляемой дан­ны­ми. И хо­тя се­год­ня ве­дет­ся мно­го раз­го­во­ров на те­му «как стать data-driven company», ре­аль­ных ре­зуль­та­тов по­чти не вид­но, а все по­то­му, что кро­ме иден­ти­фи­ка­ции, ор­кест­ров­ки, управ­ле­ния мно­же­ством ис­точ­ни­ков дан­ных и по­стро­е­ния ана­ли­ти­че­ских про­гноз­ных мо­де­лей тре­бу­ет­ся транс­фор­ми­ро­вать са­му ор­га­ни­за­цию и кор­по­ра­тив­ную куль­ту­ру, что­бы дан­ные, бла­го­да­ря по­нят­ным биз­не­су ин­стру­мен­там, дей­стви­тель­но поз­во­ля­ли при­ни­мать луч­шие биз­нес-ре­ше­ния. Необ­хо­ди­ма ин­фра­струк­ту­ра под­держ­ки сер­ви­са са­мо­об­слу­жи­ва­ния мас­шта­би­ру­е­мо­го до­сту­па к дан­ным — вме­сто по­стро­е­ния ин­фра­струк­ту­ры для ко­ман­ды по дан­ным нуж­на имен­но мас­шта­би­ру­е­мая струк­ту­ра спра­вед­ли­во­го рас­пре­де­ле­ния ре­сур­сов по раз­лич­ным груп­пам, спо­соб­ная кон­тро­ли­ро­вать и про­зрач­но управ­лять дви­же­ни­ем по­то­ков дан­ных.

Лю­бая ор­га­ни­за­ция, пла­ни­ру­ю­щая стать ком­па­ни­ей, управляемой дан­ны­ми, долж­на: • сфор­ми­ро­вать ко­ман­ду по ра­бо­те с дан­ны­ми, в ко­то­рой долж­ны быть лю­ди, пред­став­ля­ю­щие смысл всех до­ступ­ных дан­ных, ви­дя­щие кар­ти­ну дан­ных це­ли­ком;

• со­здать еди­ный источ­ник, од­но хра­ни­ли­ще и предо­ста­вить к нему до­ступ всем со­труд­ни­кам ком­па­нии в со­от­вет­ствии с по­ли­ти­ка­ми без­опас­но­сти;

• сле­дить за удоб­ством ра­бо­ты с дан­ны­ми — все со­труд­ни­ки долж­ны чув­ство­вать се­бя ком­форт­но, про­яв­ляя ини­ци­а­ти­ву и де­лясь ре­зуль­та­та­ми с кол­ле­га­ми; • предо­ста­вить со­труд­ни­кам удоб­ные и про­стые сред­ства са­мо­об­слу­жи­ва­ния для ра­бо­ты с дан­ны­ми, что­бы ни­что не от­вле­ка­ло от твор­че­ства. Са­мо­об­слу­жи­ва­ние яв­ля­ет­ся важ­ней­шей со­став­ля­ю­щей прак­ти­ки Dataops — каж­дый по­тре­би­тель дол­жен уметь из­вле­кать нуж­ную ин­фор­ма­цию без по­сто­ян­но­го об­ра­ще­ния к ко­ман­де спе­ци­а­ли­стов. И ес­ли рань­ше для это­го обыч­но при­об­ре­та­лась и дол­го внед­ря­лась ка­кая-ни­будь слож­ная плат­фор­ма биз­нес-ана­ли­ти­ки, то в усло­ви­ях ро­ста мно­го­об­ра­зия ис­точ­ни­ков и объ­е­мов дан­ных при­о­ри­тет дол­жен от­да­вать­ся про­стым ре­ше­ни­ям.

КОН­ВЕЙ­ЕР ДАН­НЫХ DATAOPS

Ес­ли пред­ста­вить циф­ро­вое пред­при­я­тие в ви­де кон­вей­е­ра (рис. 5), то Dataops — это сба­лан­си­ро­ван­ный план обес­пе­че­ния всех его опе­ра­ций необ­хо­ди­мы­ми ком­плек­ту­ю­щи­ми и ин­стру­мен­та­ми, ис­клю­ча­ю­щий как оста­нов­ку кон­вей­е­ра, так и за­то­ва­ри­ва­ние «скла­да го­то­вой про­дук­ции». По­став­щи­ка­ми «ком­плек­ту­ю­щих» в ви­де дан­ных для та­ко­го кон­вей­е­ра мо­гут быть раз­лич­ные «смеж­ни­ки», пред­ла­га­ю­щие ли­бо соб­ствен­но дан­ные, ли­бо сер­ви­сы их об­ра­бот­ки. Та­кие ком­па­нии, как Informatica, Teradata, SAP и Microsoft, пред­ла­га­ют функ­ци­о­наль­но пол­ный стек ре­ше­ний, плат­фор­мы или сер­ви­сы по до­став­ке дан­ных для кор­по­ра­тив­но­го кон­вей­е­ра. Од­на­ко, не­смот­ря на сло­ва от­дель­ных по­став­щи­ков о до­сти­же­нии ге­ге­мо­нии дан­ных, в дей­стви­тель­но­сти боль­шин­ство круп­ных пред­при­я­тий име­ют де­ло с силь­но раз­дроб­лен­ны­ми сре­да­ми ра­бо­ты с дан­ны­ми, а это озна­ча­ет рис­ки неод­но­род­но­сти и недо­сто­вер­но­сти дан­ных и, как след­ствие, риск при­ня­тия несба­лан­си­ро­ван­ных управ­лен­че­ских ре­ше­ний.

По­став­щи­ки по­мень­ше не стре­мят­ся за­по­ло­нить со­бой весь кон­вей­ер, а ста­ра­ют­ся пред­ло­жить луч­шие тех­но­ло­ги­че­ские ре­ше­ния, сфо­ку­си­ро­ван­ные на от­дель­ных опе­ра­ци­ях, в част­но­сти: Trifacta — под­го­тов­ка дан­ных, Tamr — уни­фи­ка­ция дан­ных, Alation — ка­та­ло­ги­за­ция, Tableau — ана­ли­ти­че­ская ви­зу­а­ли­за­ция с са­мо­об­слу­жи­ва­ни­ем. На­блю­да­ет­ся тенденция к объ­еди­не­нию ре­ше­ний для по­став­ки на кон­вей­ер «круп­ных уз­лов» — на­при­мер, ком­па­ния Alation анон­си­ро­ва­ла аль­ян­сы с Teradata и Trifacta, а ком­па­нии Nexla, Composable Analytics,

Datakitchen и Switchboard Software объ­еди­ни­ли свои уси­лия на биз­не­се Dataops as a Service. Стро­и­те­ли дис­три­бу­ти­вов Hadoop так­же ото­шли от идео­ло­гии «все в од­ном ком­плек­те» и вы­пу­сти­ли спе­ци­а­ли­зи­ро­ван­ные ин­стру­мен­ты для от­дель­ных участ­ков Dataops: Hortonworks Data Steward Studio — ин­стру­мент для ра­бо­ты с по­ли­ти­ка­ми до­сту­па к дан­ным, Cloudera Analytics Workbench и Arenadata Analytic Workspace — ра­бо­чие ме­ста для ис­сле­до­ва­те­лей дан­ных, объ­еди­ня­ю­щие все­воз­мож­ные «блок­но­ты», шлю­зы к раз­но­об­раз­ным ис­точ­ни­кам и про­грамм­ные ре­сур­сы для об­ра­бот­ки дан­ных. Од­на­ко пла­той за со­став­ле­ние кон­вей­е­ра из «луч­ших в сво­ем клас­се» про­дук­тов ста­но­вят­ся до­пол­ни­тель­ные за­тра­ты на ин­те­гра­цию раз­лич­ных тех­но­ло­гий в кор­по­ра­тив­ную ин­фра­струк­ту­ру. Как бы то ни бы­ло, ин­фра­струк­ту­ра для под­дер­жа­ния бес­пе­ре­бой­ной ра­бо­ты кон­вей­е­ра дан­ных циф­ро­во­го пред­при­я­тия долж­на обес­пе­чи­вать вы­пол­не­ние опе­ра­ций несколь­ких ка­те­го­рий. Ор­кест­ров­ка кон­вей­е­ра дан­ных. Для фор­ми­ро­ва­ния по­то­ков дан­ных тре­бу­ет­ся марш­рут­ная кар­та с опи­са­ни­ем всех ис­точ­ни­ков дан­ных, мо­де­лей их пред­став­ле­ния и ин­те­гра­ции, а так­же ша­гов про­цес­са ана­ли­за. Для это­го мо­гут ис­поль­зо­вать­ся сле­ду­ю­щие ин­стру­мен­ты: Apache Oozie — пла­ни­ров­щик про­цес­сов за­да­ний Apache Hadoop; BMC Control-m — ре­ше­ние по ав­то­ма­ти­за­ции па­кет­ной об­ра­бот­ки; Datakitchen — плат­фор­ма Dataops под­держ­ки все­го цик­ла ана­ли­ти­че­ской об­ра­бот­ки, ми­ни­ми­зи­ру­ю­щая вре­мя на под­го­тов­ку и до­став­ку дан­ных нуж­но­го ка­че­ства; Reflow — си­сте­ма ин­кре­мен­таль­ной об­ра­бот­ки дан­ных в об­ла­ке с по­мо­щью про­из­воль­ных про­грамм, упа­ко­ван­ных в кон­тей­не­ры Docker. Те­сти­ро­ва­ние и обес­пе­че­ние ка­че­ства. В Dataops важ­но обес­пе­чить ав­то­ма­ти­че­скую про­вер­ку ка­че­ства дан­ных, их очист­ку на всех эта­пах об­ра­бот­ки. Воз­мож­ные ин­стру­мен­ты: ICEDQ — ПО для ав­то­ма­ти­за­ции те­сти­ро­ва­ния при ра­бо­те с хра­ни­ли­ща­ми ETL и ми­гра­ции дан­ных; Naveego — об­лач­ная плат­фор­ма для по­стро­е­ния ин­фор­ма­ци­он­ных па­не­лей и вит­рин с це­лью мо­ни­то­рин­га со­сто­я­ния дан­ных и управ­ле­ния ис­клю­че­ни­я­ми. Ав­то­ма­ти­че­ское рас­пре­де­ле­ние. В Dataops осу­ществ­ля­ет­ся непре­рыв­ное пе­ре­ме­ще­ние ко­да и кон­фи­гу­ра­ций меж­ду эта­па­ми раз­ра­бот­ки при­ло­же­ний, сбо­ра дан­ных, ста­ди­я­ми ана­ли­за и из­вле­че­ния из дан­ных по­лез­ных све­де­ний. Ти­пич­ным ин­стру­мен­том здесь мо­жет быть Jenkins, осу­ществ­ля­ю­щий непре­рыв­ную до­став­ку ПО с ав­то­ма­ти­че­ским кон­тро­лем всех эта­пов жиз­нен­но­го цик­ла при­ло­же­ний от на­пи­са­ния ко­да к сбор­ке, ав­то­те­сти­ро­ва­нию и раз­вер­ты­ва­нию в экс­плу­а­та­ци­он­ных сре­дах.

Раз­вер­ты­ва­ние мо­де­лей дан­ных и управ­ле­ние «пе­соч­ни­ца­ми». Ко­ман­ды по дан­ным, ра­бо­та­ю­щие в со­от­вет­ствии с Dataops, фор­ми­ру­ют вос­про­из­во­ди­мые во всех под­раз­де­ле­ни­ях ком­па­нии опе­ра­ци­он­ные сре­ды. Ин­стру­мен­ты: Domino — уско­ре­ние про­цес­сов раз­ра­бот­ки при­ло­же­ний ра­бо­ты с дан­ны­ми, до­став­ка мо­де­лей, бес­шов­ная ин­те­гра­ция; Open Data Group — про­грамм­ное ре­ше­ние по раз­вер­ты­ва­нию си­стем ана­ли­ти­ки на ос­но­ве мо­де­лей; Dsflow — уско­ре­ние про­цес­сов из­вле­че­ния дан­ных для биз­не­са.

Вир­ту­а­ли­за­ция дан­ных и управ­ле­ние те­сто­вы­ми дан­ны­ми. Ин­стру­мен­ты: Delphix — плат­фор­ма вир­ту­а­ли­за­ции, за­щи­ты и управ­ле­ния дан­ны­ми; Redgate — Sql-ин­стру­мен­ты, по­мо­га­ю­щие внед­рять

Dataops, управ­лять про­из­во­ди­тель­но­стью баз и под­клю­чать но­вые ба­зы. Ин­те­гра­ция и уни­фи­ка­ция дан­ных. Tamr — уни­фи­ци­ро­ван­ное ре­ше­ние для ра­бо­ты с кор­по­ра­тив­ны­ми ба­за­ми дан­ных с при­вле­че­ни­ем ме­то­дов ма­шин­но­го обу­че­ния; Switchboard Software — аут­сор­синг и ин­те­гра­ция дан­ных. Управ­ле­ние про­из­во­ди­тель­но­стью

и об­лач­ные плат­фор­мы. Ин­стру­мен­ты: Selectstar — мо­ни­то­ринг баз дан­ных; Unravel — управ­ле­ние про­из­во­ди­тель­но­стью и ра­бо­той с при­ло­же­ни­я­ми и плат­фор­ма­ми боль­ших дан­ных; Mapr — кон­вер­гент­ная плат­фор­ма ра­бо­ты с боль­ши­ми дан­ны­ми, объ­еди­ня­ю­щая сред­ства ана­ли­ти­ки ре­аль­но­го вре­ме­ни и опе­ра­ци­он­ные биз­нес-при­ло­же­ния; Quobole — об­лач­ный сер­вис клас­са Вig Data as a Service для ра­бо­ты с раз­но­род­ны­ми струк­ту­ри­ро­ван­ны­ми и неструк­ту­ри­ро­ван­ны­ми дан­ны­ми. Глав­ная за­да­ча про­грамм­ной ин­же­не­рии — предо­ста­вить ра­бо­та­ю­щее ПО, а за­да­ча ин­же­не­рии дан­ных — предо­ста­вить пред­при­я­тию ра­бо­та­ю­щие дан­ные. Все осталь­ное — вто­рич­но. Дей­стви­тель­но, тра­ди­ци­он­ная ко­ман­да ана­ли­ти­ков дан­ных ра­бо­та­ет мед­лен­но, за­тра­чи­вая мно­го уси­лий на обес­пе­че­ние ка­че­ства дан­ных, а ко­ман­да по дан­ным, ра­бо­та­ю­щая со­глас­но иде­ям Dataops, быст­ро про­из­во­дит но­вую ана­ли­ти­ку, гиб­ко ре­а­ги­руя на тре­бо­ва­ния рын­ка. При этом со­хра­ня­ет­ся при­ем­ле­мое ка­че­ство дан­ных, по­став­ля­е­мых из «све­же­го» озе­ра, при­над­ле­жа­ще­го все­му биз­не­су, а не ИТ, спе­ци­а­ли­стам по дан­ным или ана­ли­ти­кам. Очень важ­но, что­бы все со­труд­ни­ки циф­ро­во­го пред­при­я­тия бы­ли во­ору­же­ны ин­стру­мен­та­ми са­мо­об­слу­жи­ва­ния, поз­во­ля­ю­щи­ми из еди­но­го ис­точ­ни­ка по­лу­чать все необ­хо­ди­мые в рам­ках их ком­пе­тен­ции дан­ные, со­зда­вать соб­ствен­ные от­че­ты, ви­зу­а­ли­за­ции и де­лить­ся сво­и­ми от­кры­ти­я­ми с кол­ле­га­ми.

ЛИ­ТЕ­РА­ТУ­РА

1. Ashish Thusoo, Joydeep Sen Sarma. Creating a Data-driven Enterprise with Dataops. O'reilly, 2017. ISBN 978–1–491–97783–5

2. Ан­дрей Ко­сы­гин. Agile и Devops на служ­бе круп­но­го биз­не­са // От­кры­тые си­сте­мы.субд. — 2016. — № 2. — С. 28–29. URL: www.osp.ru/os/2016/02/13049287 (да­та об­ра­ще­ния: 18.05.2018).

Рис. 1. Ин­фор­ма­ци­он­ный кру­го­во­рот на пред­при­я­тии, управ­ля­е­мом дан­ны­ми

Рис. 2. Непре­рыв­ная ана­ли­ти­ка

Рис. 4. На­вы­ки ис­сле­до­ва­те­ля дан­ных: сверх­че­ло­век, «уни­вер­саль­ный сол­дат»

Рис. 3. Ко­ман­да по дан­ным в струк­ту­ре ком­па­нии

Рис. 5. Кон­вей­ер дан­ных

Newspapers in Russian

Newspapers from Russia

© PressReader. All rights reserved.