Дмитрий Миш­кин – об от­кры­тых дан­ных

Из­вест­ный IT-экс­перт Дмитрий Миш­кин по­пы­тал­ся по­стро­ить мо­дель на­деж­но­сти укра­ин­ских бан­ков с по­мо­щью ме­то­дов ма­шин­но­го обу­че­ния на ба­зе от­кры­тых дан­ных НБУ. Дан­ные ока­за­лись не вполне от­кры­ты.

Dengi - - Деньги -

На­ча­лось с то­го, что в Вокс Юкрейн вы­шла ста­тья о том, как они обу­ча­ли та­кую мо­дель (мо­дель на­деж­но­сти на ос­но­ве ме­то­дов ма­шин­но­го обу­че­ния – Ред.). Их ме­то­ди­ка вы­зва­ла у ме­ня во­про­сы раз­ме­ром с па­ру «Мрий» (ко­то­рый са­мо­лет). За­бе­гая впе­ред, ска­жу, что у ме­ня с мо­ей мо­де­лью ни­че­го по­ка не вы­шло – и от­нюдь не по­то­му, что я был недо­ста­точ­но при­ле­жен или мо­дель бы­ла пло­ха. При­чи­на – в за/от­кры­то­сти дан­ных. Су­ди­те са­ми. По­шел я на ... сайт НБУ (https://bank. gov.ua/control/uk/publish/article?art_ id=34661442 ) и ска­чал боль­ше два­дца­ти от­че­тов, каж­дый из пя­ти ча­стей – всего сотня таб­лиц. Пер­вое, что ме­ня на­сто­ро­жи­ло – все в эк­сель­ках, нет удоб­но­го ма­шин­но-чи­та­е­мо­го фор­ма­та csv. Лад­но, это по­пра­ви­мо, мож­но скон­вер­ти­ро­вать, бла­го есть ав­то­кон­вер­те­ры. Тут ме­ня под­жи­дал вто­рой сюр­приз – несколь­ко раз­ных по со­дер­жа­нию ко­ло­нок с оди­на­ко­вым на­зва­ни­ем: «у то­му числі в іно­зем­ній ва­люті». То есть, что­бы пра­виль­но ин­тер­пре­ти­ро­вать дан­ные, нуж­но знать не толь­ко на­зва­ние ко­лон­ки, но и на­зва­ние преды­ду­щей ко­лон­ки или несколь­ких. Но и это еще не всё – часть ко­ло­нок объ­еди­не­ны ка­ким-то под­за­го­лов­ком, ко­то­рый то­же нуж­но при­нять во вни­ма­ние. Хо­ро­шо, я на­пи­сал скрипт, ко­то­рый учи­ты­ва­ет и это. Все это я про­де­лал толь­ко для то­го, что­бы об­на­ру­жить, что фор­мат и со­дер­жа­ние от­че­тов (упс!) в раз­ные пе­ри­о­ды – раз­ные. Со­от­вет­ствен­но, для каж­до­го пе­ри­о­да нуж­но пи­сать свой ва­ри­ант об­ра­бот­чи­ка. За­тем как-то объ­еди­нить дан­ные в од­ну струк­ту­ру, ес­ли мы хо­тим ана­ли­зи­ро­вать от­че­ты за несколь­ко квар­та­лов или лет. И это мы еще не при­сту­па­ли к соб­ствен­но об­ра­бот­ке дан­ных. О том, что по­ка­за­те­ли и ме­то­ди­ки рас­че­та со­дер­жи­мо­го таб­лиц ме­ня­лись, я во­об­ще мол­чу. В ре­зуль­те все окон­чи­лось на том, что я как-то сле­пил все от­че­ты вме­сте, не факт, что кор­рект­но, и вы­ло­жил код в ин­тер­нет. На по­иск оши­бок и соб­ствен­но ана­лиз за­па­ла уже не хва­ти­ло. Воз­мож­но, на то и был рас­чет ува­жа­е­мых со­зда­те­лей от­че­тов? До­пу­стим, вы хо­ти­те за­пу­стить бу­маж­ный са­мо­ле­тик. Вы бе­ре­те пач­ку ли­стов бу­ма­ги и на­чи­на­е­те скла­ды­вать са­мо­ле­ти­ки. Каж­дый мо­жет лег­ко это сде­лать, по­это­му в ми­ре очень мно­го бу­маж­ных са­мо­ле­ти­ков. Те­перь пред­ставь­те, что сна­ча­ла вам нуж­но со­брать трост­ник, раз­ре­зать его, вы­мо­чить, спрес­со­вать и вы­су­шить... Вы все еще хо­ти­те за­пус­кать са­мо­лё­тик? При­мер­но так же ра­бо­та­ет про­гресс, в част­но­сти в ма­шин­ном обу­че­нии. Ак­тив­нее всего раз­ви­ва­ют­ся те об­ла­сти, в ко­то­рых мень­ше всего пре­град. На­при­мер, ма­ши­ны рас­по­зна­ют ан­глий­ский язык зна­чи­тель­но луч­ше укра­ин­ско­го не толь­ко из-за то­го, что ан­глий­ский вос­тре­бо­ван­ней. Но и по­то­му, что кто угод­но в два кли­ка мо­жет ска­чать де­сят­ки раз­ных кор­пу­сов ан­глий­ских слов и на­чать экс­пе­ри­мен­ти­ро­вать с ал­го­рит­ма­ми. Вся под­го­то­ви­тель­ная ра­бо­та уже про­ве­де­на за вас. А в слу­чае укра­ин­ско­го – выбор бед­нее, под­го­то­ви­тель­ной ра­бо­ты боль­ше. Так что ис­сле­до­ва­тель, будь он из Ри­ма, Ки­е­ва или Пе­ки­на, ско­рее бу­дет ра­бо­тать с ан­глий­ски­ми дан­ны­ми, тем са­мым усу­губ­ляя раз­рыв. Есть два про­стых прин­ци­па. Пер­вый: чем боль­ше ком­по­нен­тов в си­сте­ме, тем вы­ше ве­ро­ят­ность ошиб­ки или про­блем. Вто­рой: «му­сор на вхо­де – му­сор на вы­хо­де». Да­же ес­ли у нас есть иде­аль­ный ал­го­ритм (а его нет) об­ра­бот­ки дан­ных, но мы вво­дим в него оши­боч­ные дан­ные (на­при­мер, пе­ре­пу­та­ли ва­лю­ту) или при­быль с убыт­ка­ми, то на ре­зуль­тат мож­но да­же не смот­реть. Соб­ствен­но, до ре­зуль­та­та я так и не до­шел – на­до­е­ло пи­сать кон­вер­то­ры и об­ра­бот­чи­ки, а по­том ис­кать ошиб­ки в ис­ход­ных ма­те­ри­а­лах. Как для хобби слиш­ком мно­го нуд­ной и дур­ной ра­бо­ты. Ес­ли это и есть цель, с ко­то­рой эти от­че­ты вы­кла­ды­ва­ют­ся – что­бы лю­ди по­про­бо­ва­ли и бро­си­ли, то по­здрав­ляю. Ес­ли же от­че­ты за­гру­жа­ют для то­го, что­бы мож­но бы­ло про­ана­ли­зи­ро­вать со­сто­я­ние бан­ков­ской си­сте­мы, же­ла­тель­но ав­то­ма­ти­че­ски с по­мо­щью ис­кус­ствен­но­го ин­тел­лек­та, то у ме­ня для кли­ен­тов бан­ков пло­хие новости.

Дмитрий Миш­кин – укра­ин­ский экс­перт в об­ла­сти ис­кус­ствен­но­го ин­тел­лек­та и ма­шин­но­го обу­че­ния, ас­пи­рант Чеш­ско­го тех­ни­че­ско­го уни­вер­си­те­та в об­ла­сти ма­шин­но­го обу­че­ния и ком­пью­тер­но­го зре­ния. Со­ос­но­ва­тель ком­па­нии Clear Research, пре­по­да­ва­тель кур­са ком­пью­тер­но­го зре­ния в Укра­ин­ском ка­то­ли­че­ском уни­вер­си­те­те (Ль­вов).

Newspapers in Russian

Newspapers from Ukraine

© PressReader. All rights reserved.