Улуч­ше­ние цик­ла ав­то­ма­ти­за­ции

Otkrytye sistemy. SUBD. - - СОДЕРЖАНИЕ - Ев­ге­ний Хлы­зов

Сер­гей Со­бо­лев

Тра­ди­ци­он­ный под­ход к ав­то­ма­ти­за­ции се­год­ня уже не дает стра­те­ги­че­ско­го эф­фек­та — про­цес­сы, ав­то­ма­ти­зи­ро­ван­ные «как есть», по­рож­да­ют «циф­ро­вой ха­ос», не упро­щая, а услож­няя ра­бо­ту. Как по­ка­зал опыт НПО «Ис­кра», для циф­ро­вой транс­фор­ма­ции тре­бу­ет­ся улуч­шен­ный цикл ав­то­ма­ти­за­ции.

Ком­па­нии, спо­соб­ные с по­мо­щью гра­фов зна­ний управ­лять слож­но­стью сво­их ин­фор­ма­ци­он­ных си­стем, по­лу­чат пре­иму­ще­ства в усло­ви­ях циф­ро­вой эко­но­ми­ки.

Клю­че­вые сло­ва: семантические тех­но­ло­гии, управ­ле­ние дан­ны­ми, он­то­ло­гии Keywords: Semantic Technologies, Data Management, Ontologies

За по­след­нее де­ся­ти­ле­тие в раз­лич­ных от­рас­лях по­яви­лось мно­же­ство ре­ше­ний на ба­зе тех­но­ло­гий боль­ших дан­ных, и се­год­ня во­про­сы сбо­ра и хра­не­ния дан­ных ча­сто об­суж­да­ют­ся уже в кон­тек­сте уз­ко­спе­ци­а­ли­зи­ро­ван­ных част­но­стей. От­но­си­тель­ная про­сто­та по­стро­е­ния кор­по­ра­тив­но­го хра­ни­ли­ща при­ве­ла к то­му, что ком­па­нии ста­ли на­кап­ли­вать огром­ные мас­си­вы дан­ных, неиз­беж­но со вре­ме­нем стал­ки­ва­ясь с про­бле­мой их ка­че­ства, со­гла­со­ван­но­сти и кон­тро­ля. Ком­па­нии ста­ли бук­валь­но за­рас­тать на­бо­ра­ми дан­ных, со­бран­ны­ми в раз­ное вре­мя раз­ны­ми под­раз­де­ле­ни­я­ми в раз­ных фор­ма­тах. Как след­ствие, вы­рос­ли рас­хо­ды на ин­фра­струк­ту­ру и пе­ре­ра­бот­ку дан­ных в цен­ную ин­фор­ма­цию.

Ажи­о­таж вокруг боль­ших дан­ных при­вел к то­му, что дан­ные, не все­гда оправ­дан­но, ста­ли рас­смат­ри­вать­ся как са­мо­сто­я­тель­ная цен­ность — их на­кап­ли­ва­ют, не уде­ляя осо­бо­го вни­ма­ния ин­те­гра­ции с общим ин­фор­ма­ци­он­ны­ми по­лем ор­га­ни­за­ции, а сам факт сбо­ра дан­ных за опре­де­лен­ный пе­ри­од вре­ме­ни со­зда­ет у топ-ме­не­дже­ров ощу­ще­ние ком­фор­та. Все это ино­гда при­во­дит к то­му, что биз­нес не зна­ет точ­но, ка­кая ин­фор­ма­ция есть в его рас­по­ря­же­нии, оши­боч­но по­ла­гая, что, как толь­ко по­тре­бу­ет­ся, дан­ные бу­дут обя­за­тель­но пе­ре­ра­бо­та­ны в нечто цен­ное, на­прав­лен­ное на бла­го ком­па­нии. Од­на­ко прак­ти­ка сви­де­тель­ству­ет об об­рат­ном.

Ком­па­нии ча­сто недо­оце­ни­ва­ют за­тра­ты на по­иск, пре­до­б­ра­бот­ку и ана­лиз дан­ных. По под­сче­там ана­ли­ти­ков, в сред­нем толь­ко 3% на­бо­ров дан­ных, со­би­ра­е­мых внутри ком­па­ний для от­ра­же­ния клю­че­вых по­ка­за­те­лей ра­бо­ты под­раз­де­ле­ний (све­де­ния о за­ка­зах, ха­рак­те­ри­сти­ки про­из­вод­ства, спис­ки кли­ен­тов и пр.), не со­дер­жа­ли оши­бок. Ху­же то­го, око­ло по­ло­ви­ны всех вновь по­сту­па­ю­щих све­де­ний обыч­но со­дер­жат кри­ти­че­ские ошиб­ки, спо­соб­ные в слу­чае их необ­на­ру­же­ния ока­зать се­рьез­ное вли­я­ние на про­из­вод­ствен­ный про­цесс.

Се­год­ня по­лу­чи­ла рас­про­стра­не­ние идея о необ­хо­ди­мо­сти стан­дар­ти­за­ции тер­ми­но­ло­гии, ис­поль­зу­е­мой в рам­ках од­ной ор­га­ни­за­ции. На­при­мер, «ценный кли­ент» для от­де­ла мар­ке­тин­га и «ценный кли­ент» для от­де­ла про­даж — не эк­ви­ва­лент­ные по­ня­тия, и для улуч­ше­ния ин­фор­ма­тив­но­сти от­че­тов необ­хо­ди­мо учи­ты­вать и уметь объяснять раз­ли­чие меж­ду ни­ми. На­ли­чие со­гла­со­ван­но­го сло­ва­ря, ко­то­рым мо­жет поль­зо­вать­ся как биз­нес, так и от­дел раз­ра­бот­ки, — дав­няя меч­та ана­ли­ти­ков, в эпо­ху боль­ших дан­ных по­лу­чив­шая свой фи­нан­со­вый эк­ви­ва­лент: уме­ние со­по­став­лять ин­фор­ма­цию из раз­ных ис­точ­ни­ков и быст­ро ре­а­ги­ро­вать на внеш­ние из­ме­не­ния вполне мо­жет стать опре­де­ля­ю­щим фак­то­ром фи­нан­со­во­го успе­ха.

В от­вет на эти за­про­сы биз­не­са во­про­сам кон­тро­ля ка­че­ства и со­гла­со­ван­но­сти дан­ных ста­ло уде­лять­ся боль­ше вни­ма­ния — по­яви­лись про­дук­ты, ре­а­ли­зу­ю­щие кон­цеп­ции Data 360° и Linked Enterprise Data, но, оста­ва­ясь в рам­ках па­ра­диг­мы управ­ле­ния дан­ны­ми, мож­но лишь оп­ти­ми­зи­ро­вать и улуч­шать уже су­ще­ству­ю­щие про­цес­сы до мо­мен­та, по­ка их слож­ность и объ­е­мы сы­рых дан­ных сно­ва не пе­ре­рас­тут те­ку­щие воз­мож­но­сти Ит-си­стем ком­па­нии. Для ка­че­ствен­но­го из­ме­не­ния необ­хо­ди­мо пе­рей­ти от дан­ных к зна­ни­ям, и один из воз­мож­ных пу­тей — при­ме­нить из­вест­ный под­ход фор­маль­но­го пред­став­ле­ния зна­ний в ба­зе зна­ний ли­бо в гра­фах зна­ний (knowledge graph). Как и ней­рон­ные се­ти, ба­зы зна­ний за­ро­ди­лись еще на за­ре циф­ро­вой ис­то­рии, но, в от­ли­чие от ней­рон­ных се­тей, о ба­зах зна­ний се­год­ня по­ка еще го­во­рят ма­ло, хо­тя по­сте­пен­но все боль­ше ком­па­ний на­чи­на­ют за­ду­мы­вать­ся об он­то­ло­ги­ях, ло­ги­че­ских вы­во­дах и т. п., что сви­де­тель­ству­ет о по­сте­пен­ном сме­ще­нии ак­цен­та от ве­де­ния биз­не­са на ос­но­ве дан­ных к ве­де­нию биз­не­са на ос­но­ве зна­ний.

Граф зна­ний — спо­соб фор­ма­ли­за­ции зна­ний о ре­аль­ном ми­ре. При этом долж­ны вы­пол­нять­ся сле­ду­ю­щие усло­вия. • Со­став­ля­ет­ся фор­маль­ное опи­са­ние клас­сов сущ­но­стей ре­аль­но­го ми­ра («Че­ло­век», «Счет», «Ав­то­мо­биль») с иерар­хи­ей и огра­ни­че­ни­я­ми. Ино­гда опи­са­ние вклю­ча­ет в се­бя пра­ви­ла ло­ги­че­ско­го вы­во­да (на­при­мер, ес­ли сущ­ность от­но­сит­ся к клас­су «Ав­то­мо­биль» и име­ет бо­лее се­ми мест для пе­ре­воз­ки пас­са­жи­ров, то ее нуж­но клас­си­фи­ци­ро­вать как «Ав­то­бус»). Та­кое опи­са­ние на­зы­ва­ет­ся он­то­ло­ги­ей.

• Фак­ты о при­над­леж­но­сти сущ­но­сти к опре­де­лен­но­му клас­су, о на­ли­чии свойств и свя­зей друг с дру­гом пред­став­ля­ют­ся в ви­де ори­ен­ти­ро­ван­но­го гра­фа, где вер­ши­на­ми слу­жат са­ми сущ­но­сти и их ха­рак­те­ри­сти­ки, а ду­га­ми — свойства, пе­ре­чис­лен­ные в он­то­ло­гии. Та­ким об­ра­зом, каж­дый за­пи­сан­ный факт под­да­ет­ся фор­маль­ной ин­тер­пре­та­ции.

Граф зна­ний поз­во­ля­ет от­ве­чать как на во­про­сы, от­но­ся­щи­е­ся к он­то­ло­гии («Ка­кие ат­ри­бу­ты есть у сущ­но­сти “Кли­ент”?»), так и на во­про­сы по на­коп­лен­ным фак­там («Сколь­ко раз­лич­ных под­ряд­чи­ков бы­ло у пред­при­я­тия в 2018 го­ду?», «Ка­кие то­ва­ры со­от­вет­ству­ют то­ва­ру “Ле­го Тек­ник — Экс­ка­ва­тор”?»).

Необ­хо­ди­мо от­ли­чать гра­фы зна­ний от гра­фо­вых баз дан­ных из раз­ря­да NOSQL, обес­пе­чи­ва­ю­щих эф­фек­тив­ный до­ступ к дан­ным, наи­бо­лее под­хо­дя­щий для вы­пол­не­ния кон­крет­ных ал­го­рит­мов. В слу­чае гра­фов зна­ний фор­ми­ру­ет­ся еди­ное раз­де­ля­е­мое опи­са­ние пред­мет­ной области, а фокус сме­ща­ет­ся с хра­не­ния дан­ных к их пред­став­ле­нию в тер­ми­нах пред­мет­ной области.

Пред­по­ло­жим, ком­па­ния об­ла­да­ет гра­фом зна­ний, в ко­то­ром пе­ре­чис­ле­ны все ис­поль­зу­е­мые ею ис­точ­ни­ки ин­фор­ма­ции, а та­к­же все тер­ми­ны, при­ме­ня­е­мые ком­па­ни­ей в до­ку­мен­та­ции к биз­нес-про­цес­сам и в по­все­днев­ном об­ще­нии. Кро­ме то­го, в том же гра­фе ука­за­но, как имен­но из дан­ных по­лу­ча­ют­ся сущ­но­сти, фи­гу­ри­ру­ю­щие в от­че­тах и биз­нес-про­цес­сах. Все это собрано в од­ном ме­сте, и каж­дый со­труд­ник ком­па­нии, об­ла­да­ю­щий со­от­вет­ству­ю­щи­ми пра­ва­ми, мо­жет по­смот­реть все эта­пы транс­фор­ма­ции дан­ных и в слу­чае по­треб­но­сти вне­сти кор­рек­ти­ров­ки. Ит-от­дел точ­но по­ни­ма­ет за­про­сы биз­не­са — его со­труд­ни­ки опи­ра­ют­ся на об­ще­при­ня­тую в ком­па­нии тер­ми­но­ло­гию и в ря­де слу­ча­ев вы­пол­ня­ют их быст­рее, чем ра­нее, и с мень­шим ко­ли­че­ством оши­бок бла­го­да­ря воз­мож­но­сти де­лать за­про­сы к ба­зе зна­ний на фор­маль­ном уровне. Та­кая струк­ту­ра зна­чи­тель­но по­вы­ша­ет про­зрач­ность ис­поль­зо­ва­ния дан­ных в ор­га­ни­за­ции, что, в свою оче­редь, уско­ря­ет выполнение со­пря­жен­ных опе­ра­ций: по­лу­че­ние нуж­но­го на­бо­ра дан­ных, со­по­став­ле­ние таб­лиц в неза­ви­си­мых ба­зах дан­ных и пр.

Граф зна­ний мо­жет та­к­же вы­сту­пать в ро­ли хра­ни­ли­ща ма­стер-дан­ных. Ес­ли ком­па­ния уже рас­по­ла­га­ет Mdm-си­сте­мой, управ­ля­ю­щей ре­фе­рент­ны­ми дан­ны­ми, то ба­за зна­ний обо­га­ща­ет ее пра­ви­ла­ми ло­ги­че­ско­го вы­во­да, поз­во­ля­ет при­ве­сти в со­от­вет­ствие с внеш­ни­ми стан­дар­та­ми (на­при­мер, при сли­я­нии двух ор­га­ни­за­ций, ис­поль­зу­ю­щих раз­ные Mdm-про­дук­ты) и рас­ши­рить но­вы­ми кон­цеп­та­ми без из­ме­не­ний в струк­ту­ре хра­ни­мых дан­ных (на­при­мер, за­дать клас­си­фи­ка­цию кли­ен­тов). Та­кие ре­ше­ния на­зы­ва­ют­ся Semantic MDM (SMDM).

Дру­гой при­мер ос­но­ван на ре­аль­ном про­ек­те, вы­пол­нен­ном ком­па­ни­ей Datafabric. Ис­поль­зуя ре­ест­ры ЕГРЮЛ и ЕГРИП, мож­но сфор­ми­ро­вать граф зна­ний о всех юри­ди­че­ских и фи­зи­че­ских ли­цах, участ­ву­ю­щих в опре­де­лен­ной де­я­тель­но­сти в рам­ках рос­сий­ско­го пра­во­во­го по­ля. По­лу­чив­ший­ся граф мо­жет слу­жить для про­вер­ки контр­аген­тов как источник ста­ти­сти­че­ских дан­ных или для по­стро­е­ния ана­ли­ти­че­ских от­че­тов. В гра­фе со­дер­жит­ся око­ло 6 млрд фак­тов о рос­сий­ских ком­па­ни­ях, вклю­чая ис­то­ри­че­ские, не вхо­дя­щие в ак­ту­аль­ные вер­сии ре­ест­ров. В ка­че­стве он­то­ло­гии используется стан­дарт FIBO (Financial Industry Business Ontology, spec.edmcouncil.org/ fibo), что обес­пе­чи­ва­ет се­ман­ти­че­скую сов­ме­сти­мость с дан­ны­ми из дру­гих ин­фор­ма­ци­он­ных си­стем, ис­поль­зу­ю­щих ту же он­то­ло­гию для пред­став­ле­ния све­де­ний, на­при­мер, о за­ру­беж­ных ком­па­ни­ях. На ба­зе та­ко­го гра­фа зна­ний работают два сер­ви­са: «То­по­ло­гия Биз­не­са» — ви­зу­аль­ный ин­тер­фейс (рис. 1) к гра­фу зна­ний; сер­вис ин­тер­ак­тив­ных ан­кет (рис. 2) — фор­ми­ро­ва­ние ан­ке­ты пред­при­я­тия с по­ля­ми, ав­то­ма­ти­че­ски за­пол­ня­е­мы­ми из гра­фа зна­ний по­сле вве­де­ния ИНН или ОГРН ком­па­нии. Поль­зо­ва­тель ссы­ла­ет­ся на кон­цеп­ты он­то­ло­гии и раз­ме­ча­ет, где в ан­ке­те долж­ны быть ад­рес, на­зва­ние и, на­при­мер, устав­ной ка­пи­тал. При этом мож­но не толь­ко ссы­лать­ся на сущ­но­сти ФНС, но и до­бав­лять к ан­ке­те ха­рак­те­ри­сти­ки Рос­ста­та и дру­гих под­клю­ча­е­мых баз дан­ных. На­ли­чие фор­ма­ли­зо­ван­ной схе­мы дан­ных поз­во­ля­ет стро­ить при­клад­ные ре­ше­ния, а поль­зо­ва­те­лям — при­ме­нять при­выч­ную им тер­ми­но­ло­гию, а не вы­ис­ки­вать нуж­ный стол­бец в ба­зе дан­ных. Как ре­зуль­тат, су­ще­ствен­но умень­ша­ет­ся ко­ли­че­ство оши­бок.

Пе­ре­ход от дан­ных к зна­ни­ям не озна­ча­ет со­зда­ния но­вой ба­зы — речь идет о смене па­ра­диг­мы ра­бо­ты с кор­по­ра­тив­ной ин­фор­ма­ци­ей. Дан­ные, обо­га­щен­ные се­ман­ти­кой с по­мо­щью гра­фов зна­ния, становятся до­ступ­ны для ав­то­ма­ти­че­ской обработки, что мож­но счи­тать пер­вым ша- гом на пу­ти к ин­тел­лек­ту­аль­ным ин­фор­ма­ци­он­ным си­сте­мам.

***

Ком­па­нии, на­шед­шие спо­соб кон­тро­ли­ро­вать рост слож­но­сти сво­их ин­фор­ма­ци­он­ных си­стем, по­лу­ча­ют пре­иму­ще­ство и фун­да­мент для даль­ней­ше­го ро­ста, сме­щая ак­цент от ве­де­ния биз­не­са на ос­но­ве дан­ных к ве­де­нию биз­не­са на ос­но­ве зна­ний, что осо­бен­но важ­но в усло­ви­ях циф­ро­вой эко­но­ми­ки. Од­на­ко для ра­бо­ты с ба­зой зна­ний тре­бу­ет­ся опре­де­лен­ная ква­ли­фи­ка­ция ко­ман­ды — в ком­па­нии дол­жен по­явить­ся ин­же­нер по зна­ни­ям, от­ве­ча­ю­щий за про­цес­сы их со­хра­не­ния, при­умно­же­ния и рас­про­стра­не­ния. Се­год­ня на рын­ке та­ких спе­ци­а­ли­стов по­чти нет. Необ­хо­ди­мо бу­дет та­к­же разо­брать­ся с ин­фра­струк­ту­рой — тех­но­ло­ги­че­ский стек ин­стру­мен­тов под­держ­ки ба­зы зна­ний мо­жет силь­но от­ли­чать­ся от име­ю­ще­го­ся в ком­па­нии.

Ев­ге­ний Хлы­зов (eugene.hlyzov@ datafabric.cc) — тех­ни­че­ский ди­рек­тор, ком­па­ния Datafabric (Санкт-пе­тер­бург). Ста­тья под­го­тов­ле­на на ос­но­ве материалов вы­ступ­ле­ния на кон­фе­рен­ции «Тех­но­ло­гии управ­ле­ния дан­ны­ми 2018».

Рис. 1. При­мер гра­фа зна­ний в си­сте­ме «То­по­ло­гия биз­не­са»

Рис. 2. Фор­ма со­зда­ния по­лей ан­ке­ты в сер­ви­се ин­тер­ак­тив­ных ан­кет

Newspapers in Russian

Newspapers from Russia

© PressReader. All rights reserved.