Data science: со­че­та­ние уни­каль­ных на­вы­ков

со­че­та­ние уни­каль­ных на­вы­ков

Direktor informatsionnoj sluzhby - - СОДЕРЖАНИЕ «ДИРЕКТОР ИНФОРМАЦИОННОЙ СЛУЖБЫ» (CIO.R - БОБ вай­ОлИНО

Спе­ци­а­ли­сты по ис­сле­до­ва­нию и ана­ли­зу дан­ных се­го­дня це­нят­ся очень вы­со­ко. Что­бы на­учить­ся при­но­сить ре­аль­ную поль­зу биз­не­су с по­мо­щью дан­ных, по­тре­бу­ет­ся уни­каль­ное со­че­та­ние тех­ни­че­ских на­вы­ков, ма­те­ма­ти­че­ских спо­соб­но­стей, ин­ту­и­ции и уме­ния объ­яс­нять.

Се­го­дня, ко­гда в ком­па­ни­ях прак­ти­че­ски всех от­рас­лей стре­мят­ся по­лу­чать мак­си­маль­ную от­да­чу от до­ступ­ных рас­ту­щих ин­фор­ма­ци­он­ных ре­сур­сов, од­ни­ми из са­мых вос­тре­бо­ван­ных спе­ци­а­ли­стов ста­ли экс­пер­ты по данным (data scientists).

Цен­ность этой спе­ци­аль­но­сти бу­дет рас­ти и даль­ше по ме­ре то­го, как в ор­га­ни­за­ци­ях будут ста­вить се­бе на служ­бу все­воз­мож­ные внут­рен­ние и внеш­ние источ­ни­ки ин­фор­ма­ции.

Что имен­но нужно, что­бы стать экс­пер­том в области на­у­ки о дан­ных? Пе­ре­чис­лим ос­нов­ные ка­че­ства и на­вы­ки, необ­хо­ди­мые та­ко­му спе­ци­а­ли­сту.

КРИ­ТИ­Че­СКОе Мыш­ле­НИе

Спо­соб­ность кри­ти­че­ски мыс­лить необ­хо­ди­ма для объ­ек­тив­но­го ана­ли­за фак­тов, пе­ред тем как сфор­му­ли­ро­вать мнение или вы­не­сти суж­де­ние по ре­ша­е­мой про­бле­ме.

Вник­нув в суть задачи биз­не­са, нужно уметь вы­де­лить то, что дей­стви­тель­но важ­но для ее ре­ше­ния, и от­бро­сить несу­ще­ствен­ное. Этот на­вык – один из опре­де­ля­ю­щих для спе­ци­а­ли­ста по данным.

На­ря­ду с опы­том необ­хо­ди­ма спо­соб­ность от­бра­сы­вать сте­рео­ти­пы. С од­ной сто­ро­ны, нуж­ны ба­зо­вые зна­ния в ши­ро­ком кру­ге об­ла­стей, с дру­гой – чет­кое по­ни­ма­ние то­го, что опыт и ин­ту­и­ция не га­ран­ти­ру­ют сто­про­цент­но­го успе­ха.

ПРО­ГРАМ­МИ­РО­ВА­НИе

Пред­по­чти­тель­ным языком про­грам­ми­ро­ва­ния для на­у­ки о дан­ных ста­но­вит­ся Python, нема­ло по­клон­ни­ков есть у R. При­ме­ня­ют­ся и дру­гие, в том чис­ле C++, Scala, Closure, Java и Octave.

При этом, по­ми­мо об­щих зна­ний в области ра­бо­ты с боль­ши­ми объ­е­ма­ми дан­ных, с ин­фор­ма­ци­ей ре­аль­но­го вре­ме­ни, об­лач­ны­ми сер­ви­са­ми и неструк­ту­ри­ро­ван­ны­ми дан­ны­ми, нуж­ны зна­ния в области ста­ти­сти­че­ских ме­то­дов и мо­де­лей.

МА­Те­МА­ТИ­КА

Круп­ным ор­га­ни­за­ци­ям тре­бу­ет­ся раз­ра­бот­ка слож­ней­ших ста­ти­сти­че­ских мо­де­лей фи­нан­со­вой и опе­ра­ци­он­ной де­я­тель­но­сти, для обес­пе­че­ния до­сто­вер­но­сти ко­то­рых нуж­ны огром­ные объ­е­мы дан­ных. Создание мо­де­лей, при­но­ся­щих ре­аль­ную поль­зу при раз­ра­бот­ке и оп­ти­ми­за­ции биз­нес­стра­те­гий, невоз­мож­но без со­от­вет­ству­ю­щей ма­те­ма­ти­че­ской подготовки.

Уче­ный по данным дол­жен не толь­ко пре­вос­ход­но раз­би­рать­ся в статистике, но и уметь работать в тес­ном вза­и­мо­дей­ствии с биз­не­сру­ко­во­ди­те­ля­ми, а им обыч­но тре­бу­ют­ся до­ход­чи­вые разъ­яс­не­ния про­ис­хо­дя­ще­го в «чер­ном ящи­ке».

МА­шИН­НОе ОбУЧеНИе И ИСКУС­СТВеН­Ный ИН­Тел­леКТ

Уче­но­му по данным необ­хо­ди­мо быть в кур­се по­след­них раз­ра­бо­ток и по­ни­мать области при­ме­не­ния раз­лич­ных тех­но­ло­гий. од­на­ко сто­ит из­бе­гать внед­ре­ния за­ман­чи­во­го нов­ше­ства, ес­ли для ре­ша­е­мой задачи бу­дет до­ста­точ­но намного ме­нее слож­ных средств.

Данные «са­ми» по­мо­гут прий­ти к вы­бо­ру технологии, ко­гда бу­дет глу­бо­кое по­ни­ма­ние про­бле­мы и огра­ни­чи­тель­ных усло­вий, вклю­чая вы­чис­ли­тель­ные за­тра­ты, ин­тер­пре­ти­ру­е­мость, ха­рак­те­ри­сти­ки се­ти, уро­вень ожи­да­ний за­каз­чи­ка и т. п.

Вме­сте с тем нуж­ны на­вы­ки в области ис­поль­зо­ва­ния ста­ти­сти­че­ских ме­то­дов. Ра­бо­то­да­те­ли не все­гда это учи­ты­ва­ют, по­сколь­ку се­го­дня ши­ро­ко до­ступ­ны со­от­вет­ству­ю­щие ав­то­ма­ти­зи­ро­ван­ные сред­ства, в том чис­ле с от­кры­тым ко­дом. од­на­ко без ста­ти­сти­че­ских зна­ний не бу­дет по­ни­ма­ния огра­ни­че­ний та­ких ин­стру­мен­тов.

Недо­ста­точ­но уметь осво­ить ин­тер­фей­сы для ра­бо­ты с го­то­вы­ми ре­а­ли­за­ци­я­ми ал­го­рит­мов ма­шин­но­го обу­че­ния. Что­бы вы­брать под­хо­дя­щий, необ­хо­ди­мо по­ни­мать ста­ти­сти­че­ские ме­то­ды и прин­ци­пы пред­ва­ри­тель­ной подготовки дан­ных для оп­ти­ми­за­ции ско­ро­сти ра­бо­ты модели.

Важ­ны так­же зна­ния в области ком­пью­тер­ной на­у­ки, в част­но­сти ос­нов про­грамм­ной ин­же­не­рии.

КОММУНИКАТИВНые СПО­СОб­НО­СТИ

Важ­ность ком­му­ни­ка­тив­ных на­вы­ков сто­ит осо­бо под­черк­нуть. В служ­бах ИТ се­го­дня прак­ти­че­ски ни­что не де­ла­ет­ся «в ва­ку­у­ме»; все­гда есть вза­и­мо­дей­ствие меж­ду раз­лич­ны­ми си­сте­ма­ми, при­ло­же­ни­я­ми, дан­ны­ми и людь­ми. Не ис­клю­че­ние и про­цес­сы ис­сле­до­ва­ния дан­ных, по­это­му го­тов­ность об­щать­ся – од­но из важ­ней­ших ка­честв.

Необ­хо­ди­мо уме­ние до­ступ­но объ­яс­нять ма­те­ма­ти­че­ские вы­клад­ки и пре­вра­щать их в прак­ти­че­ские зна­ния. Уче­ный по данным, ра­бо­та­ю­щий на пе­ре­се­че­нии ИТ, ста­ти­сти­че­ских ме­то­дов и биз­не­са, дол­жен быть спо­соб­ным из­ло­жить по­лу­чен­ные ре­зуль­та­ты в нуж­ной фор­ме лю­бо­му из за­ин­те­ре­со­ван­ных лиц.

Нужно уметь разъ­яс­нять топ-ме­не­дже­рам пре­иму­ще­ства дан­ных для биз­не­са, воз­мож­но­сти тех­но­ло­гий и вы­чис­ли­тель­ных ре­сур­сов, про­бле­мы ка­че­ства дан­ных, при­ват­но­сти и кон­фи­ден­ци­аль­но­сти, а так­же дру­гие вопросы, име­ю­щие зна­че­ние для ор­га­ни­за­ции.

Ис­сле­до­ва­те­лю дан­ных нуж­ны зна­ния в области биз­не­са и спо­соб­ность за­да­вать вер­ные вопросы биз­нес-ру­ко­во­ди­те­лям, что­бы по­нять суть про­бле­мы и разо­брать­ся, ка­кие имен­но данные будут по­лез­ны­ми для ее ре­ше­ния.

Кро­ме то­го, нужно уме­ние разъ­яс­нять прин­цип дей­ствия ал­го­рит­мов. Спо­соб­ность рас­ска­зать, как имен­но си­сте­ма при­шла к то­му или ино­му вы­во­ду, важ­на для за­во­е­ва­ния до­ве­рия ру­ко­вод­ства к про­гноз­ным мо­де­лям, ко­то­рые ис­поль­зу­ют­ся в рам­ках их биз­нес-про­цес­сов.

АРхИТеКТУРА ДАН­Ных

от­сут­ствие по­ни­ма­ния ар­хи­тек­ту­ры дан­ных ве­дет к ошиб­кам в раз­ме­ре вы­бор­ки и пред­по­ло­же­ни­ях, обу­слов­ли­вая невер­ные ре­зуль­та­ты и ре­ше­ния.

Что еще ху­же, мо­жет по­явить­ся необ­хо­ди­мость ме­нять са­ми эле­мен­ты ар­хи­тек­ту­ры. Без ис­ход­но­го по­ни­ма­ния ее вли­я­ния на модели вы мо­же­те за­стрять в бес­ко­неч­ных до­ра­бот­ках, раз за ра­зом по­лу­чая неточ­ные ре­зуль­та­ты и тщет­но пы­та­ясь разо­брать­ся в при­чи­нах.

Hadoop из­бав­ля­ет от необ­хо­ди­мо­сти пе­ре­ме­щать боль­шие данные, об­ра­ба­ты­вая их в ме­сте хра­не­ния, од­на­ко зна­ние всех по­дроб­но­стей кон­вей­е­ра об­ра­бот­ки по-преж­не­му важ­но для обес­пе­че­ния при­ня­тия ка­че­ствен­ных, обос­но­ван­ных ре­ше­ний.

АНА­лИз РИС­КОВ, ОП­ТИ­МИ­зА­цИя ПРО­цеС­СОВ, СИСТеМНАя ИН­жеНеРИя

Ис­сле­до­ва­те­лю дан­ных необ­хо­ди­мо по­ни­мать прин­ци­пы ана­ли­за биз­нес-рис­ков, улуч­ше­ния про­цес­сов и си­стем­ной ин­же­не­рии. Со­от­вет­ству­ю­щие на­вы­ки при­ме­ня­ют­ся ком­плекс­но как при ра­бо­те над мо­де­ля­ми, так и при вза­и­мо­дей­ствии с за­каз­чи­ком, в част­но­сти для по­лу­че­ния от него ис­чер­пы­ва­ю­щих све­де­ний о ре­ша­е­мой за­да­че.

Для сни­же­ния рис­ков ме­то­ды их ана­ли­за нужно при­ме­нять с са­мо­го начала раз­ра­бот­ки мо­де­лей.

СПО­СОб­НОСТь К Ре­ше­НИю ПРО­блеМ И бИз­НеС-ЧУ­Тье

Уче­но­му по данным необ­хо­ди­мы ка­че­ства, по­мо­га­ю­щие справ­лять­ся с про­блем­ны­ми си­ту­а­ци­я­ми.

Имен­но на эти свой­ства, по­ми­мо склон­но­сти к кри­ти­че­ско­му мыш­ле­нию, сле­ду­ет об­ра­щать вни­ма­ние при най­ме тех­ни­че­ско­го спе­ци­а­ли­ста на долж­ность уче­но­го по данным.

В це­лом со­че­та­ние на­вы­ков хо­ро­ше­го уче­но­го по данным вы­гля­дит дей­стви­тель­но ред­ким: вы­со­кие ин­тел­лек­ту­аль­ные спо­соб­но­сти для ре­ше­ния за­дач об­ра­бот­ки дан­ных и со­зда­ния эф­фек­тив­ных мо­де­лей, хо­ро­шее по­ни­ма­ние про­блем биз­не­са, зна­ние струк­ту­ры дан­ных и прин­ци­пов ра­бо­ты раз­лич­ных ал­го­рит­мов.

Пер­вое из пе­ре­чис­лен­но­го най­ти про­ще – необ­хо­ди­мые ка­че­ства обыч­но есть у боль­шин­ства вы­пуск­ни­ков выс­ших учеб­ных за­ве­де­ний с ма­те­ма­ти­че­ски­ми, ин­же­нер­ны­ми и дру­ги­ми тех­ни­че­ски­ми спе­ци­аль­но­стя­ми. А вот с из­ло­же­ни­ем прин­ци­пов дей­ствия мо­де­лей слож­нее. По сви­де­тель­ству ра­бо­то­да­те­лей, весь­ма рас­про­стра­не­на си­ту­а­ция, ко­гда на со­бе­се­до­ва­ние при­хо­дит че­ло­век с опы­том по­стро­е­ния слож­ных мо­де­лей, но при этом неспо­соб­ный внят­но объ­яс­нить, по­че­му имен­но та или иная мо­дель сра­бо­та­ла и на ка­ком ос­но­ва­нии был вы­бран кон­крет­ный под­ход к ре­а­ли­за­ции.

Да­же ес­ли са­ма мо­дель де­ла­ет точ­ные про­гно­зы, без по­ни­ма­ния прин­ци­па дей­ствия до­ве­рия к ней бу­дет мень­ше. По­это­му за­ло­гом успеш­ной ка­рье­ры на по­при­ще на­у­ки о дан­ных будут глу­бо­кие по­зна­ния в области ме­ха­низ­мов ра­бо­ты раз­лич­ных ал­го­рит­мов в со­че­та­нии с раз­ви­той ин­ту­и­ци­ей.

– Bob Violino. Essential skills and traits of elite data scientists. CIO.

MAR 27, 2018

Уче­ный по данным дол­жен не толь­ко пре­вос­ход­но раз­би­рать­ся в статистике, но и уметь работать в тес­ном вза­и­мо­дей­ствии с биз­не­сру­ко­во­ди­те­ля­ми

Newspapers in Russian

Newspapers from Russia

© PressReader. All rights reserved.