Управ­ле­ние дан­ны­ми на ос­но­ве гра­фов зна­ний

Otkrytye sistemy. SUBD. - - СОДЕРЖАНИЕ -

Ев­ге­ний Хлы­зов

Ком­па­нии, спо­соб­ные с по­мо­щью гра­фов зна­ний управ­лять слож­но­стью сво­их ин­фор­ма­ци­он­ных си­стем, по­лу­чат пре­иму­ще­ства в усло­ви­ях циф­ро­вой эко­но­ми­ки.

Се­год­ня име­ет­ся два тех­но­ло­ги­че­ских под­хо­да к ана­ли­зу тек­стов: на ос­но­ве ста­ти­сти­че­ских и на ос­но­ве линг­ви­сти­че­ских ме­то­дов. Пер­вый со­сто­ит в ста­ти­сти­че­ском ана­ли­зе ба­зы фак­тов, при­ме­ня­е­мой для ана­ли­за но­вых си­ту­а­ций. Ина­че го­во­ря, «обу­че­ние» си­сте­мы про­ис­хо­дит пу­тем со­зда­ния баз ста­ти­сти­че­ски зна­чи­мых ва­ри­ан­тов и су­пер­по­зи­ций, на­пи­са­ния од­них и тех же «сущ­но­стей» в раз­лич­ных текстах. Ва­ри­а­ци­я­ми яв­ля­ют­ся раз­лич­ные ча­стот­ные ал­го­рит­мы, та­кие как ла­тент­но-се­ман­ти­че­ский ана­лиз, ней­рон­ные се­ти и т. д. Вто­рой под­ход пред­по­ла­га­ет раз­ви­тие ана­ли­ти­че­ских воз­мож­но­стей ма­ши­ны за счет вы­стра­и­ва­ния ло­ги­че­ских свя­зей без пред­ва­ри­тель­но­го «обу­че­ния» на при­ме­рах; в этом слу­чае при­ме­ня­ют­ся тех­но­ло­гии Svm-ана­ли­за (ма­ши­ны опор­ных век­то­ров, Support Vector Machines, www.osp.ru/ os/2017/03/13052660), «пе­ре­нос-сверт­ка», по­стро­е­ние грам­ма­тик и т. д.

К со­жа­ле­нию, несмот­ря на боль­шое ко­ли­че­ство фун­да­мен­таль­ных ис­сле­до­ва­ний, по­свя­щен­ных ана­ли­зу тек­стов, на практике при­хо­дит­ся стал­ки­вать­ся с ря­дом труд­но­стей, глав­ным об­ра­зом свя­зан­ных со сла­бым раз­ви­ти­ем се­ми­о­ти­ки как тео­рии зна­ко­вых си­стем [3]. Боль­шин­ство ис­сле­до­ва­ний в этой области, про­во­ди­мых в 60-х го­дах про­шло­го ве­ка, но­си­ли умо­зри­тель­ный ха­рак­тер и бы­ли свя­за­ны с изу­че­ни­ем мыш­ле­ния как та­ко­во­го, а се­год­ня в рам­ках за­дач ана­ли­за тек­стов необ­хо­ди­мо учи­ты­вать раз­ли­чия в ас­со­ци­а­тив­ных ря­дах пред­ста­ви­те­лей раз­ных куль­тур, рас­по­зна­вать устой­чи­вые вы­ра­же­ния, эмо­ци­о­наль­ные оттенки ре­чи, недо­ста­точ­ность зна­ния ав­то­ром язы­ка, на ко­то­ром пи­шет­ся та или иная ра­бо­та, и т. д. Кро­ме то­го, раз­ви­тие ча­сто за­труд­не­но за­кры­то­стью пе­ре­до­вых ис­сле­до­ва­ний, боль­шая часть ко­то­рых име­ет при­клад­ной ха­рак­тер и но­сит ста­тус ком­мер­че­ской тайны.

СТАТИСТИЧЕСКИЕ МЕ­ТО­ДЫ

Ос­нов­ная мас­са ал­го­рит­мов та­ко­го ти­па ба­зи­ру­ет­ся на пред­ва­ри­тель­но раз­ме­чен­ных он­то­ло­ги­ях, обо­га­щен­ных ал­го­рит­ма­ми нечет­ко­го срав­не­ния и ва­ри­ан­та­ми на­пи­са­ний, та­ки­ми как со­кра­ще­ния, ти­по­вые опе­чат­ки и т. д. Дру­ги­ми сло­ва­ми, ана­лиз про­из­во­дит­ся пу­тем со­по­став­ле­ния ис­сле­ду­е­мо­го тек­ста с пред­ва­ри­тель­но раз­ме­чен­ной ба­зой тек­стов на ос­но­ва­нии то­го или иного ал­го­рит­ма ча­стот­но­го ана­ли­за. Яр­ким при­ме­ром мо­гут по­слу­жить по­пыт­ки google.com ис­поль­зо­вать ней­рон­ные се­ти при пе­ре­во­де тек­стов. В ка­че­стве модели ча­ще все­го при­ме­ня­ют­ся раз­но­го ро­да он­то­ло­гии, наи­бо­лее ти­пич­ны­ми из ко­то­рых яв­ля­ют­ся эта­лон­ные спра­воч­ни­ки. Ос­нов­ные осо­бен­но­сти ме­то­дов дан­но­го класса: • ши­ро­кое ис­поль­зо­ва­ние ал­го­рит­мов пол­но­тек­сто­во­го по­ис­ка, что не поз­во­ля­ет учи­ты­вать флек­тив­ность язы­ка, учи­ты­вать ошиб­ки и опе­чат­ки; • ис­поль­зо­ва­ние раз­но­го ро­да n-грамм (ана­лиз по­сле­до­ва­тель­но­сти ана­ли­за кор­те­жей из n-букв, сло­гов или слов), что сни­жа­ет ско­рость ра­бо­ты ал­го­рит­мов и при­во­дит к ошиб­кам, свя­зан­ным с ги­по­те­зой о до­ста­точ­но зна­чи­мой за­ви­си­мо­сти линг­ви­сти­че­ских еди­ниц от их окру­же­ния; • хе­ши­ро­ва­ние дан­ных, при­во­дя­щее к из­бы­точ­но­сти ва­ри­ан­тов на­пи­са­ния од­ной и той же сущ­но­сти (в сред­нем уве­ли­че­ние от 10 до 50 и бо­лее раз); в ка­че­стве при­ме­ра мож­но при­ве­сти ре­ше­ния по очист­ке ад­рес­ных дан­ных, где наи­бо­лее по­пу­ляр­ные сер­ви­сы обыч­но со­об­ща­ют, что их «обу­ча­ю­щая вы­бор­ка» со­став­ля­ет порядка 50 млн на каж­дый мил­ли­он эта­лон­ных за­пи­сей; • ана­лиз про­из­во­дит­ся пу­тем пря­мой про­вер­ки под­строк на пол­ное со­от­вет­ствие эта­ло­ну, что не поз­во­ля­ет про­во­дить ана­лиз грам­ма­ти­че­ских оши­бок и опе­ча­ток без на­коп­ле­ния ба­зы их ва­ри­ан­тов, учи­ты­вать на­ли­чие «вы­па­да­ю­ще­го» кон­тен­та и т. д.

К пре­иму­ще­ствам ста­ти­сти­че­ских ме­то­дов мож­но от­не­сти от­но­си­тель­но про­стую ре­а­ли­за­цию и вы­со­кую ско­рость пе­ре­бо­ра ва­ри­ан­тов. Но недо­стат­ков су­ще­ствен­но боль­ше, сре­ди них:

• ла­ви­но­об­раз­ный рост объ­е­ма ба­зы из­за необ­хо­ди­мо­сти хра­не­ния ва­ри­ан­тов на­пи­са­ний от­дель­ных сущ­но­стей; • слож­ность кон­тро­ля непро­ти­во­ре­чи­во­сти фак­тов, став­ших эле­мен­та­ми ба­зы фак­тов, при­во­дя­щая к ро­сту ве­ро­ят­но­сти по­яв­ле­ния как по­ли­се­мии, так и си­но­ни­мии ва­ри­ан­тов на­пи­са­ний лек­си­че­ских еди­ниц; • невоз­мож­ность или силь­ная огра­ни­чен­ность ана­ли­за ча­стич­ных сов­па­де­ний и уче­та мор­фо­ло­гии; • вы­со­кая сто­и­мость пер­во­на­чаль­но­го со­зда­ния ал­го­рит­мов из-за необ­хо­ди­мо­сти на­коп­ле­ния ба­зы ва­ри­ан­тов на­пи­са­ний, что от­ра­жа­ет­ся, на­при­мер, в слож­но­сти под­клю­че­ния но­вых стран при раз­бо­ре ад­ре­сов (для каж­дой стра­ны необ­хо­ди­мо со­зда­вать свою ба­зу ва­ри­ан­тов на­пи­са­ний); • невоз­мож­ность при­ме­не­ния эв­ри­сти­че­ских под­хо­дов для ана­ли­за си­ту­а­ций, вы­хо­дя­щих за рам­ки из­вест­ных ва­ри­ан­тов.

ЛИНГВИСТИЧЕСКИЕ МЕ­ТО­ДЫ

Ес­ли не брать во вни­ма­ние спе­ци­фи­че­ские за­да­чи, та­кие как ана­лиз эмо­ци­о­наль­ной окрас­ки тек­ста, фо­не­ти­че­ский ана­лиз и пр., то мож­но счи­тать, что ал­го­рит­мы дан­но­го класса опи­ра­ют­ся преж­де все­го на син­так­си­че­ский, се­ман­ти­че­ский и праг­ма­ти­че­ский ана­лиз, осу­ществ­ля­е­мый как за счет со­по­став­ле­ния с тео­ре­ти­че­ски­ми мо­де­ля­ми, так и пу­тем перевода линг­ви­сти­че­ских еди­ниц на ме­та­язык.

Син­так­си­че­ский ана­лиз ли­ней­ной по­сле­до­ва­тель­но­сти слов — это ана­лиз струк­ту­ры пред­ло­же­ния и от­но­ше­ния его ком­по­нен­тов с по­стро­е­ни­ем дерева за­ви­си­мо­стей или дерева со­став­ля­ю­щих.

Се­ман­ти­че­ский ана­лиз за­ви­си­мо­сти сло­ва или фра­зы от общего кон­тек­ста — раз­ре­ше­ние про­блем по­ли­се­мии, си­но­ни­мии и т. д. В ос­но­ве здесь ле­жат раз­но­го ро­да язы­ко­вые кор­пу­сы, со­здан­ные для за­дач кор­пус­ной линг­ви­сти­ки. От­дель­но следует упо­мя­нуть ис­сле­до­ва­ния в области ас­со­ци­а­тив­ной се­ман­ти­ки, та­кие как тео­рия неод­но­род­ных се­ман­ти­че­ских се­тей [4], в ос­но­ве ко­то­рой ле­жат лек­си­че­ские еди­ни­цы, объ­еди­ня­е­мые по зна­че­ни­ям (се­ман­ти­че­ский принцип) или по вы­пол­ня­е­мым функ­ци­ям (функ­ци­о­наль­ный принцип). Ме­то­до­ло­гия ас­со­ци­а­тив­ной се­ман­ти­ки нуж­на для со­кра­ще­ния се­ман­ти­че­ской мно­го­знач­но­сти пу­тем фор­ми­ро­ва­ния се­ман­ти­че­ской модели, поз­во­ля­ю­щей вос­ста­но­вить об­щий смысл тек­ста в усло­ви­ях мно­го­знач­но­сти его фраг­мен­тов, а та­к­же вы­чис­лить и оце­нить сте­пень адек­ват­но­сти це­ли, с ко­то­рой был текст на­пи­сан [5].

Праг­ма­ти­че­ский ана­лиз смыс­ла тек­ста тре­бу­ет­ся для уче­та ино­ска­за­тель­но­стей, «оши­бок перевода», свя­зан­ных с раз­ны­ми куль­ту­ро­ло­ги­че­ски­ми ас­со­ци­а­ци­я­ми, по­ня­ти­я­ми и при­ня­ты­ми устой­чи­вы­ми вы­ра­же­ни­я­ми в кон­тек­сте сре­ды ав­то­ра тек­ста. Эта об­ласть се­год­ня наи­ме­нее фор­ма­ли­зо­ва­на, а «кор­пу­сы» прак­ти­че­ски от­сут­ству­ют. Од­ним из пер­спек­тив­ных на­прав­ле­ний ра­бот бы­ло бы со­зда­ние кор­пу­сов ас­со­ци­а­тив­ных по­лей, на­по­ми­на­ю­щих по­ли­ти­че­ские, с вре­мен­ны­ми и тер­ри­то­ри­аль­ны­ми гра­ни­ца­ми куль­тур. При­ме­ром та­ких раз­ли­чий мо­жет быть раз­ни­ца в по­ни­ма­нии сим­во­ли­ки цве­та в раз­ных куль­ту­рах. По­стро­е­ние та­ко­го ро­да по­лей яв­ля­ет­ся есте­ствен­ным раз­ви­ти­ем ас­со­ци­а­тив­ной се­ман­ти­ки, но в слу­чае се­ман­ти­че­ско­го под­хо­да ас­со­ци­а­ции стро­ят­ся глав­ным об­ра­зом на ана­ли­зе баз ас­со­ци­а­ций линг­ви­сти­че­ских еди­ниц или экс­по­нен­тов, а в слу­чае праг­ма­ти­че­ско­го — на ос­но­ве баз ас­со­ци­а­ций зна­ков (слов или фраз), сиг­ни­фи­ка­тов (со­во­куп­ность при­зна­ков пред­ме­та или явления, ко­то­рые су­ще­ствен­ны для его пра­виль­но­го на­име­но­ва­ния дан­ным сло­вом в си­сте­ме дан­но­го язы­ка) и де­но­та­тов (мно­же­ство объектов вне­язы­ко­вой дей­стви­тель­но­сти. При­ме­ром мо­жет по­слу­жить це­поч­ка: «ко­те­лок» (знак) — «ем-

кость для при­го­тов­ле­ния пи­щи на огне» (опи­са­тель­ные ха­рак­те­ри­сти­ки — сиг­ни­фи­кат) — сам пред­мет или со­во­куп­ность пред­ме­тов (аб­страк­ций), ко­то­рые мо­гут быть на­зва­ны «ко­тел­ком».

Хо­ро­шие ре­зуль­та­ты для по­ис­ка общ­но­стей, ис­поль­зу­е­мые в дальнейшем для со­зда­ния баз, получены с по­мо­щью ней­рон­ных се­тей, поз­во­ля­ю­щих кла­сте­ри­зо­вать устой­чи­вые вы­ра­же­ния, опи­са­ния и вы­явить устой­чи­вые ас­со­ци­а­ции. Та­кой под­ход был ре­а­ли­зо­ван в си­сте­мах ма­шин­но­го перевода Google. Кро­ме то­го, пер­спек­тив­ным на­прав­ле­ни­ем су­ще­ству­ю­щих се­год­ня тех­но­ло­гий ра­бо­ты с изоб­ра­же­ни­я­ми мог­ла бы стать за­да­ча по вы­яв­ле­нию и со­зда­нию клас­сов де­но­та­тов по их изоб­ра­же­ни­ям, ко­то­рые са­ми по се­бе уже есть вне­язы­ко­вые сущ­но­сти.

Ха­рак­тер­ные осо­бен­но­сти линг­ви­сти­че­ских ме­то­дов:

• на­ли­чие раз­ме­чен­ных кор­пу­сов, эта­лон­ных спра­воч­ни­ков и он­то­ло­гий (но не са­мих тек­стов как та­ко­вых), на­при­мер «Лек­си­ко­граф» ВИНИТИ, на­ци­о­наль­ный кор­пус рус­ско­го язы­ка КЛАДР/ФИАС; • на­ли­чие объ­еди­нен­ных в грам­ма­ти­ки пра­вил, ре­а­ли­зу­е­мых в фор­ме свя­зан­ных шаб­ло­нов, ис­кус­ствен­ных пре­ди­ка­тив­ных язы­ков и т. д.; • про­ве­де­ние ана­ли­за пу­тем по­сле­до­ва­тель­но­го срав­не­ния слов, при­чем допускаются пе­ре­ста­нов­ки, раз­ли­чия в по­ряд­ке сле­до­ва­ния слов, учитываются со­кра­ще­ния и сло­во­фор­мы; • от­сут­ствие от­дель­ной про­це­ду­ры ве­ри­фи­ка­ции для при­ня­тия окон­ча­тель­но­го ре­зуль­та­та.

Пре­иму­ще­ства: • вы­со­кая точ­ность по срав­не­нию со ста­ти­сти­че­ски­ми ме­то­да­ми; • хо­ро­шая адап­та­ция к раз­ным он­то­ло­ги­ям; • воз­мож­ность ис­поль­зо­ва­ния эв­ри­сти­че­ских под­хо­дов для ана­ли­за си­ту­а­ций за рам­ка­ми зна­ний, упа­ко­ван­ных в кор­пу­сы; • воз­мож­ность ана­ли­за и при­ня­тия ре­ше­ния при ра­бо­те с «гряз­ны­ми» дан­ны­ми (изоби­лие раз­но­го ро­да оши­бок, из­бы­точ­ный кон­тент и пр.).

Сре­ди недо­стат­ков мож­но от­ме­тить слож­ность реализации грам­ма­тик из-за от­сут­ствия го­то­вых ин­стру­мен­тов, низ­кую ско­рость ра­бо­ты, слож­ность кон­тро­ля непро­ти­во­ре­чи­во­сти пра­вил, а та­к­же по­стро­е­ния пред­ва­ри­тель­но раз­ме­чен­ных и ло­ги­че­ски увя­зан­ных кор­пу­сов баз зна­ний.

ПРАК­ТИ­КА

Как по­ка­зы­ва­ет наш опыт раз­ра­бот­ки ал­го­рит­мов для из­вле­че­ния дан­ных, ре­зуль­та­ты не за­ви­сят от раз­ме­ра эта­лон­но­го спра­воч­ни­ка — до­ста­точ­но ми­ни­маль­но­го объ­е­ма в 1–3 тыс. элементов при сред­ней длине эле­мен­та в два сло­ва. В таб­ли­це при­ве­де­ны ре­зуль­та­ты срав­не­ния ста­ти­сти­че­ских и линг­ви­сти­че­ских ме­то­дов из­вле­че­ния дан­ных на при­ме­ре ана­ли­за ад­рес­ных дан­ных экс­пе­ри­мен­таль­ной ба­зы. В ка­че­стве эта­лон­но­го иерар­хи­че­ско­го спра­воч­ни­ка был ис­поль­зо­ван ФИАС [6], со­сто­я­щий из 1,2 млн элементов на уровне улиц. Об­щий уро­вень иерар­хии объектов ра­вен ше­сти: ре­ги­он, рай­он, го­род, на­се­лен­ный пункт, ули­ца и дом. А в ка­че­стве ин­стру­мен­тов ста­ти­сти­че­ско­го ана­ли­за ис­поль­зо­ва­лись ма­ши­на пол­но­тек­сто­во­го по­ис­ка Elastic Search (elastic.com), до­пол­нен­ная рас­сто­я­ни­ем Ле­вен­штей­на для ана­ли­за опе­ча­ток, и ма­ши­на пол­но­тек­сто­во­го по­ис­ка. В ка­че­стве ин­стру­мен­та линг­ви­сти­че­ско­го ана­ли­за при­ме­ня­лась ма­ши­на IQDQ Search Engine (iqsystems.ru/tech/iqsearch), а в ка­че­стве ана­ли­зи­ру­е­мо­го тек­ста по­слу­жил мас­сив из 100 тыс. ад­ре­сов, га­ран­ти­ро­ван­но со­дер­жа­щих ад­рес­ные дан­ные, грам­ма­ти­че­ские ошиб­ки, про­пу­щен­ные эле­мен­ты ад­рес­но­го кор­те­жа. Дли­на каж­до­го эле­мен­та мас­си­ва не пре­вы­ша­ла 500 сим­во­лов, а ко­ли­че­ство слов, не от­но­ся­щих­ся к кон­крет­но­му ад­рес­но­му кор­те­жу, не пре­вы­ша­ло двух на каж­дые 10 строк.

Несмот­ря на яв­ные раз­ли­чия, оба ме­то­да име­ют пра­во на су­ще­ство­ва­ние. Их эф­фек­тив­ность за­ви­сит: от объ­е­ма эта­лон­ных спра­воч­ни­ков, хо­тя, как уже от­ме­ча­лось, на объ­е­мах 1–3 тыс. элементов раз­ли­чия не столь су­ще­ствен­ны; «узо­сти» по­ня­тий­но­го по­ля пред­мет­ной области; на­ли­чия муль­ти­я­зыч­но­сти; глу­би­ны вло­жен­но­сти дерева сущ­но­стей и т. д. Неп­ло­хим при­ме­ром мо­жет слу­жить ор­га­ни­за­ция по­ис­ка дан­ных в неболь­шом уз­ко­спе­ци­а­ли­зи­ро­ван­ном то­вар­ном спра­воч­ни­ке ин­тер­нет­ма­га­зи­на и по­ис­ка в боль­шом online-ги­пер­мар­ке­те.. В пер­вом слу­чае статистические ме­то­ды да­ют пре­крас­ные ре­зуль­та­ты, а для достижения ре­зуль­та­та во вто­ром слу­чае не обойтись без си­стем линг­ви­сти­че­ско­го ана­ли­за тек­стов. Эф­фек­тив­ное при­ме­не­ние тех­но­ло­гий ма­шин­но­го обу­че­ния для ра­бо­ты с тек­ста­ми се­год­ня невоз­мож­но без тех­но­ло­гий пред­ва­ри­тель­но­го се­ман­ти­че­ско­го ана­ли­за, ко­то­рые в бу­ду­щем долж­ны ши­ро­ко ис­поль­зо­вать­ся при ре­ше­нии лю­бых за­дач, свя­зан­ных с обу­че­ни­ем, и в первую оче­редь с под­го­тов­кой и раз­мет­кой обу­ча­ю­щих вы­бо­рок. Са­мо машинное обу­че­ние мо­жет, в свою оче­редь, стать обязательным ком­по­нен­том при со­зда­нии раз­лич­ных фрейм­вор­ков на уровне встро­ен­ных соб­ствен­ных функ­ций или «обер­ток» внеш­них сер­ви­сов, необ­хо­ди­мых для обес­пе­че­ния ка­че­ства дан­ных.

ЛИТЕРАТУРА 1.

Дмитрий Иль­вов­ский, Ека­те­ри­на Чер­няк. Си­сте­мы ав­то­ма­ти­че­ской обработки тек­стов // От­кры­тые си­сте­мы. СУБД. — 2014. — № 1. — С. 51–53. URL: https://www.osp.ru/ os/2014/01/13039687 (да­та об­ра­ще­ния: 21.09.2018). 2.

Tomas Mikolov et. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. URL: http://arxiv.org/pdf/1301.3781. pdf (да­та об­ра­ще­ния: 18.05.2018). 3.

Оси­пов Г. С. При­об­ре­те­ние зна­ний ин­тел­лек­ту­аль­ны­ми си­сте­ма­ми: Ос­но­вы тео­рии и тех­но­ло­гии. — М.: Наука. Физ­мат­лит, 1997. 4.

Лот­ман Ю. М. Лю­ди и зна­ки // В кн. Лот­ман Ю. М. Се­мио­сфе­ра. — СПБ.: Искус­ство-спб, 2010. — С. 6. 5.

Ку­чу­га­нов В. Н. Эле­мен­ты тео­рии ас­со­ци­а­тив­ной се­ман­ти­ки // Управ­ле­ние боль­ши­ми си­сте­ма­ми. Вы­пуск 40. М.: ИПУ РАН, 2012. — С.30–48. 6.

Кон­стан­тин Си­ма­ков, Илья Коз­лов. Осо­бен­но­сти очист­ки ад­рес­ных дан­ных // От­кры­тые си­сте­мы. СУБД. — 2013. — № 9. — С. 30–33. URL: https://www.osp.ru/ os/2013/09/13038283 (да­та об­ра­ще­ния: 21.09.2018).

Мак­сим Ко­ва­лев (kovalev@iqsystems.ru) — ге­не­раль­ный ди­рек­тор, ком­па­ния Iqsystems (Москва). Ста­тья под­го­тов­ле­на на ос­но­ве материалов вы­ступ­ле­ния ав­то­ра на кон­фе­рен­ции «Тех­но­ло­гии ма­шин­но­го обу­че­ния 2018».

Newspapers in Russian

Newspapers from Russia

© PressReader. All rights reserved.