Смі­т­тя на вхо­ді – смі­т­тя на ви­хо­ді

Groshi - - Зворотний Зв’язок -

По­ча­лось з то­го, що у Вокс Юкрейн ви­йшла ста­т­тя про те, як во­ни на­вча­ли та­ку мо­дель (мо­дель на­дій­но­сті на осно­ві ме­то­дів ма­шин­но­го на­вча­н­ня – Ред.). Їх ме­то­ди­ка ви­кли­ка­ла у ме­не пи­та­н­ня роз­мі­ром з па­ру «Мрій» (який лі­так). За­бі­га­ю­чи на­пе­ред, ска­жу, що у ме­не з мо­єю мо­де­л­лю ні­чо­го по­ки не ви­йшло – і аж ні­як не то­му, що я був не­до­ста­тньо ста­ран­ний або мо­дель бу­ла по­га­на. При­чи­на – в за/від­кри­то­сті да­них. Су­діть са­мі. Пі­шов я на ... сайт НБУ (https://bank. gov.ua/control/uk/publish/article?art_ id=34661442) і ска­чав біль­ше двад­ця­ти зві­тів, ко­жен з п’яти ча­стин – всьо­го со­тня та­блиць. Пер­ше, що ме­не на­сто­ро­жи­ло – все в ексель­ках, не­має зру­чно­го ма­шин­но-чи­та­но­го фор­ма­ту csv. Га­разд, це мо­жна ви­пра­ви­ти, мо­жна кон­вер­ту­ва­ти, до­бре, що є ав­то­кон­вер­те­ри. Тут ме­не че­кав дру­гий сюр­приз – кіль­ка рі­зних за змі­стом ко­ло­нок з одна­ко­вою на­звою: «у то­му чі­слі в іно­зем­ній ва­лю­ті». Тоб­то, щоб пра­виль­но ін­тер­пре­ту­ва­ти да­ні, по­трі­бно зна­ти не тіль­ки на­зву ко­лон­ки, але і на­зву по­пе­ре­дньої ко­лон­ки або де­кіль­кох. Але і це ще не все – ча­сти­на ко­ло­нок об’єд­на­ні яки­мось підза­го­лов­ком, який теж по­трі­бно взя­ти до ува­ги. До­бре, я на­пи­сав скрипт, який вра­хо­вує і це. Все це я ви­ко­нав тіль­ки для то­го, щоб ви­яви­ти, що фор­мат і зміст зві­тів (упс!) в рі­зні пе­рі­о­ди – рі­зні. Від­по­від­но, для ко­жно­го пе­рі­о­ду по­трі­бно пи­са­ти свій ва­рі­ант обро­бни­ка. По­тім якось об’єд­на­ти да­ні в одну стру­кту­ру, якщо ми хо­че­мо ана­лі­зу­ва­ти зві­ти за кіль­ка квар­та­лів або ро­ків. І це ми ще не при­сту­па­ли до вла­сне оброб­ки да­них. Про те, що по­ка­зни­ки і ме­то­ди­ки роз­ра­хун­ку вмі­сту та­блиць змі­ню­ва­ли­ся, я вза­га­лі мов­чу. У ре­зуль­та­ті все за­кін­чи­ло­ся на то­му, що я якось злі­пив всі зві­ти ра­зом, не факт, що ко­ре­ктно, і ви­клав код в ін­тер­нет. На по­шук по­ми­лок і, вла­сне ана­ліз, на­сна­ги вже не ви­ста­чи­ло. Мо­жли­во, на те й був роз­ра­ху­нок ша­но­ва­них твор­ців зві­тів? При­пу­сти­мо, ви хо­че­те за­пу­сти­ти па­пе­ро­вий лі­та­чок. Ви бе­ре­те па­чку ли­стів па­пе­ру і по­чи­на­є­те скла­да­ти лі­та­чки. Ко­жен мо­же лег­ко це зро­би­ти, то­му у сві­ті ду­же ба­га­то па­пе­ро­вих лі­та­чків. Те­пер уявіть, що спо­ча­тку вам по­трі­бно зі­бра­ти оче­рет, роз­рі­за­ти йо­го, ви­мо­чи­ти, спре­су­ва­ти і ви­су­ши­ти. Ви все ще хо­че­те за­пу­ска­ти лі­та­чок? При­бли­зно так са­мо пра­цює про­грес, зокре­ма, в ма­шин­но­му на­вчан­ні. Най­актив­ні­ше роз­ви­ва­ю­ться ті обла­сті, в яких най­мен­ше пе­ре­шкод. На­при­клад, ма­ши­ни роз­пі­зна­ють ан­глій­ську мо­ву зна­чно кра­ще укра­їн­ської не тіль­ки че­рез те, що ан­глій­ська більш за­тре­бу­ва­на. А й то­му, що хто зав­го­дно у два клі­ки мо­же за­ван­та­жи­ти де­ся­тки рі­зних кор­пу­сів ан­глій­ських слів і по­ча­ти екс­пе­ри­мен­ту­ва­ти з ал­го­ри­тма­ми. Вся під­го­тов­ча ро­бо­та вже про­ве­де­на за вас. А у ра­зі укра­їн­сько­го – ви­бір бі­дні­ший, під­го­тов­чої ро­бо­ти біль­ше. Тож до­слі­дник, чи то із Ри­му, Ки­є­ва або Пе­кі­на, ско­рі­ше бу­де пра­цю­ва­ти з ан­глій­ськи­ми да­ни­ми, тим са­мим по­си­лю­ю­чи роз­рив. Є два про­стих прин­ци­пи. Пер­ший: чим біль­ше ком­по­нен­тів у си­сте­мі, тим ви­ща ймо­вір­ність по­мил­ки або про­блем. Дру­гий: «смі­т­тя на вхо­ді – смі­т­тя на ви­хо­ді». На­віть якщо у нас є іде­аль­ний ал­го­ритм (а йо­го не­має) оброб­ки да­них, але ми вво­ди­мо в ньо­го по­мил­ко­ві да­ні (на­при­клад, пе­ре­плу­та­ли ва­лю­ту або при­бу­ток зі зби­тка­ми), то на ре­зуль­тат мо­жна на­віть не ди­ви­ти­ся. Вла­сне, до ре­зуль­та­ту я так і не ді­йшов – на­бри­дло пи­са­ти кон­вер­то­ри і обро­бни­ки, а по­тім шу­ка­ти по­мил­ки у ви­хі­дних ма­те­рі­а­лах. Як для хо­бі за­над­то ба­га­то ну­дної ро­бо­ти. Якщо це і є ме­та, з якою ці зві­ти ви­кла­да­ю­ться – щоб лю­ди спро­бу­ва­ли і ки­ну­ли, то ві­таю. Якщо ж зві­ти за­ван­та­жу­ють для то­го, щоб мо­жна бу­ло про­ана­лі­зу­ва­ти стан бан­ків­ської си­сте­ми, ба­жа­но, ав­то­ма­ти­чно за до­по­мо­гою шту­чно­го ін­те­ле­кту, то у ме­не для клі­єн­тів бан­ків по­га­ні новини.

Ві­до­мий It-екс­перт Дми­тро Ми­шкін спро­бу­вав по­бу­ду­ва­ти мо­дель на­дій­но­сті укра­їн­ських бан­ків за до­по­мо­гою ме­то­дів ма­шин­но­го на­вча­н­ня на ба­зі від­кри­тих да­них НБУ. Да­ні ви­яви­ли­ся не ціл­ком від­кри­ті.

Дми­тро Ми­шкін – укра­їн­ський екс­перт в обла­сті шту­чно­го ін­те­ле­кту і ма­шин­но­го на­вча­н­ня, аспі­рант Че­сько­го те­хні­чно­го уні­вер­си­те­ту в обла­сті ма­шин­но­го на­вча­н­ня і комп’ютер­но­го зо­ру. Спів­за­снов­ник ком­па­нії Clear Research, ви­кла­дач кур­су комп’ютер­но­го зо­ру в Укра­їн­сько­му ка­то­ли­цько­му уні­вер­си­те­ті (Львів).

Newspapers in Ukrainian

Newspapers from Ukraine

© PressReader. All rights reserved.