Они со­зда­ли поиск

Ekspert - - ТЕМА НЕДЕЛИ -

Ма­те­ма­ти­че­ский рей­тинг веб­стра­ни­цы (PageRank) для про­стой се­ти, вы­ра­жен­ный в про­цен­тах. Веб­стра­ни­ца C име­ет бо­лее вы­со­кий рей­тинг, чем стра­ни­ца E, хо­тя ссы­лок на C мень­ше, чем на Е, но од­на из ссы­лок на C ис­хо­дит из бо­лее важ­ной стра­ни­цы B и, сле­до­ва­тель­но, име­ет бо­лее вы­со­кое зна­че­ние. Ес­ли услов­но счи­тать, что веб-поль­зо­ва­тель, ко­то­рый на­хо­дит­ся на слу­чай­ной стра­ни­це, име­ет 85%-ную ве­ро­ят­ность вы­бо­ра слу­чай­ной ссыл­ки на те­ку­щей стра­ни­це, и 15%-ную — пе­ре­хо­да на лю­бую дру­гую стра­ни­цу в ин­тер­не­те, то ве­ро­ят­ность пе­ре­хо­да к стра­ни­це E с дру­гих ссы­лок рав­на 8,1%.

но­вые кри­те­рии оцен­ки зна­чи­мо­сти ин­фор­ма­ции, ме­ня­ют су­ще­ству­ю­щие, а ком­па­ния дер­жит все это в стро­гом сек­ре­те, по­вто­ряя, что де­ла­ет­ся это для «улуч­ше­ния ка­че­ства по­ис­ка».

Ал­го­рит­мы по­ис­ка Google с са­мо­го на­ча­ла бы­ли эф­фек­тив­ны, что и поз­во­ли­ло ком­па­нии на­брать вес. При­бли­зить­ся по ка­че­ству по­ис­ка к Google ока­за­лось крайне слож­но, по­это­му по­сте­пен­но ком­па­ния проч­но срос­лась с са­мим по­ня­ти­ем ин­тер­не­та. По срав­не­нию с су­ще­ство­вав­ши­ми в 1990-х го­дах ме­то­да­ми по­ис­ка Yahoo и Lycos ал­го­ритм Google PageRank до­ба­вил ин­но­ва­цию: ло­ги­ка ал­го­рит­ма ба­зи­ру­ет­ся на ран­жи­ро­ва­нии ре­ле­вант­но­сти веб-стра­ни­цы на ос­но­ва­нии ко­ли­че­ства и ка­че­ства стра­ниц, с ко­то­ры­ми она свя­за­на. Каж­дый раз, ко­гда тот или иной сайт да­ет ссыл­ку на дру­гой сайт, он тем са­мым оце­ни­ва­ет его и, со­от­вет­ствен­но, по­вы­ша­ет его зна­чи­мость. Ал­го­ритм PageRank ана­ли­зи­ру­ет все кросс-ссыл­ки, и, ко­гда мы пуб­ли­ку­ем ссыл­ку или просто пе­ре­хо­дим по ней, мы уве­ли­чи­ва­ем ба­зу зна­ний Google и де­ла­ем ал­го­ритм еще ум­нее. По­лу­чив огром­ную до­лю на рын­ке, Google при­об­рел ка­че­ствен­но но­вые воз­мож­но­сти для обу­че­ния сво­их ал­го­рит­мов, что услож­ня­ет по­зи­ции кон­ку­рен­тов.

С мо­мен­та сво­е­го со­зда­ния PageRank на­учил­ся ана­ли­зи­ро­вать не толь­ко ко­ли­че­ство ссы­лок на сай­ты, но и мно­же­ство дру­гих фак­то­ров — в Google не пуб­ли­ку­ют дан­ные о них, од­на­ко из­вест­но, что все­го их око­ло 200. Мар­ке­то­ло­ги, ко­то­рые ра­бо­та­ют с по­ис­ко­вы­ми ме­ха­низ­ма­ми Google, опыт­ным пу­тем вы­яс­ни­ли, ка­кие фак­то­ры вли­я­ют на Page Rank сай­та, — это, на­при­мер, клю­че­вое сло­во в на­ча­ле до­мен­но­го име­ни, срок ре­ги­стра­ции до­ме­на, ко­ли­че­ство кон­тен­та на сай­те, ско­рость за­груз­ки стра­ни­цы. Од­на­ко да­же раз­ра­бот­чи­ки из Google, как пра­ви­ло, не име­ют пря­мо­го до­сту­па к ал­го­рит­му PageRank. На­при­мер, про­грам­мист Пол Янг рас­ска­зы­ва­ет, что, хо­тя его ра­бо­та и свя­за­на с по­ис­ком Google, он ни ра­зу не ви­дел ал­го­рит­ма ран­жи­ро­ва­ния стра­ниц. «Ал­го­ритм ран­жи­ро­ва­ния стра­ниц — лишь неболь­шая часть по­ис­ко­вой плат­фор­мы. Код боль­шей ча­сти плат­фор­мы от­крыт для всех со­труд­ни­ков ком­па­нии», — объ­яс­ня­ет Янг. Та­ким об­ра­зом, да­же ес­ли раз­ра­бот­чи­ки хо­те­ли бы по­вли­ять на по­ис­ко­вую вы­да­чу, им бы это не уда­лось.

Ал­го­ритм PageRank под­дер­жи­ва­ет­ся и руч­ным тру­дом де­ся­ти ты­сяч со­труд­ни­ков — так на­зы­ва­е­мых оцен­щи­ков. В от­ли­чие от без­душ­ных ал­го­рит­мов оцен­щи­ки мо­гут про­ана­ли­зи­ро­вать, насколько фак­то­ло­ги­че­ски вер­на та или иная ин­фор­ма­ция. Оцен­щи­ки ра­бо­та­ют не непо­сред­ствен­но в Google, а в ком­па­ни­ях-под­ряд­чи­ках, на­при­мер в Appen и Lionbridge. Как пра­ви­ло, оцен­щи­ки по­лу­ча­ют 12–15 дол­ла­ров за час ра­бо­ты. В Google утвер­жда­ют, что оцен­щи­ки ана­ли­зи­ру­ют сай­ты не с идео­ло­ги­че­ской точ­ки зре­ния, а толь­ко про­ве­ря­ют, насколько им мож­но до­ве­рять. Руч­ная оцен­ка не вли­я­ет на­пря­мую на по­ис­ко­вую вы­да­чу Google. Вы­став­лен­ный оцен­щи­ком низ­кий рей­тинг не при­ве­дет к за­пре­ту или пря­мо­му по­ни­же­нию рен­кин­га этой стра­ни­цы. В ком­па­нии го­во­рят, что дан­ные, ге­не­ри­ру­е­мые оцен­щи­ка­ми, ис­поль­зу­ют­ся для улуч­ше­ния ал­го­рит­мов по­ис­ка Google.

В от­ли­чие от Google, ко­то­рый прак­ти­че­ски ни­че­го не рас­ска­зы­ва­ет об об­нов­ле­ни­ях сво­е­го по­ис­ко­во­го ал­го­рит­ма, «Ян­декс», на­обо­рот, пуб­ли­ку­ет по­дроб­ные от­че­ты о каж­дом круп­ном из­ме­не­нии в сво­ем бло­ге. По­след­ние несколь­ко лет рос­сий­ская ком­па­ния ста­ра­ет­ся по­вы­шать ка­че­ство кон­тен­та в по­ис­ко­вой вы­да­че, что­бы поль­зо­ва­те­ли на свой за­прос не по­лу­ча­ли бес­смыс­лен­ный текст, со­здан­ный для SEO-про­дви­же­ния сай­та. Так, в 2015 го­ду на­чал ра­бо­тать ал­го­ритм «Ми­ну­синск», ко­то­рый по­ни­жа­ет ран­жи­ро­ва­ние сай­тов, для про­дви­же­ния ко­то­рых ис­поль­зу­ют­ся SEO-ссыл­ки. А в 2017 го­ду по­явил­ся ал­го­ритм «Ба­денБа­ден», ко­то­рый по­ни­жа­ет по­ло­же­ние пе­ре­опти­ми­зи­ро­ван­ных сай­тов в вы­да­че. В «Ян­дек­се» под­чер­ки­ва­ют, что ал­го­рит­мы ра­бо­та­ют ав­то­ма­ти­че­ски и люди на по­ис­ко­вую вы­да­чу ни­как не вли­я­ют.

Ро­бот вме­сто жур­на­ли­ста?

Чем боль­ше ин­фор­ма­ции ин­дек­си­ру­ет­ся по­ис­ко­вы­ми си­сте­ма­ми, тем слож­нее ста­но­вят­ся ме­ха­низ­мы ана­ли­за и об­ра­бот­ки дан­ных. Все боль­шую роль по­лу­ча­ют си­сте­мы ав­то­ма­ти­че­ской ге­не­ра­ции ин­фор­ма­ции, в первую оче­редь но­вост­ной. Ло­вуш­ка для ав­то­ров кон­тен­та и вла­дель­цев сай­тов уже не толь­ко в необ­хо­ди­мо­сти по­бо­роть ал­го­рит­мы по­ис­ко­ви­ков. Ма­ло вый­ти в ли­де­ры по­ис­ко­вой вы­да­чи, необ­хо­ди­мо кон­ку­ри­ро­вать с дру­ги­ми ав­то­ра­ми, сре­ди ко­то­рых все боль­ше ро­бо­тов. Не­об­хо­ди­мость пуб­ли­ко­вать ин­фор­ма­цию на опе­ре­же­ние, од­но­вре­мен­но на мно­гих ре­сур­сах, оп­ти­ми­зи­ро­вать текст для ин­дек­са­ции по­ис­ко­вы­ми си­сте­ма­ми и со­блю­дать стан­дар­ты и струк­ту­ру — вот лишь неко­то­рые при­чи­ны, под­сте­ги­ва­ю­щие рост ав­то­ма­ти­че­ской ге­не­ра­ции но­во­стей.

Хо­тя пер­вые ав­то­ма­ти­че­ские но­во­сти по­яви­лись еще пол­ве­ка на­зад в про­гно­зах по­го­ды, а технологии ге­не­ра­ции есте­ствен­но­го язы­ка раз­ви­ва­ют­ся с 1950-х го­дов, осо­бое вни­ма­ние технологии по­лу­чи­ли не­дав­но. За по­след­ние пять лет ав­то­ма­ти­че­ское со­зда­ние но­во­стей про­шло путь от мел­ких экс­пе­ри­мен­тов до гло­баль­но­го яв­ле­ния — се­год­ня еже­год­но де­сят­ки ты­сяч но­вост­ных ста­тей пи­шут­ся ро­бо­та­ми. Технологии по­став­ля­ют ком­па­нии из США, Гер­ма­нии, Ки­тая. Ак­тив­но ра­бо­та­ют в этой об­ла­сти ком­па­нии Arria, Applied Semantics, Automated Insights и Narrative Science, при­чем это не ме­ди­а­ком­па­нии и за­ни­ма­ют­ся они не столь­ко жур­на­ли­сти­кой, сколь­ко про­бле­ма­ми об­ра­бот­ки есте­ствен­но­го язы­ка в це­лом.

Ис­сле­до­ва­ния в об­ла­сти ма­шин­но­го обу­че­ния ал­го­рит­мов для ге­не­ра­ции и ана­ли­за тек­стов ста­но­вят­ся все бо­лее до­ступ­ны­ми. Так, в июне аме­ри­кан­ские уче­ные Джо­зеф Бал­лок и Ми­гель Лу­эн­го-Орос опуб­ли­ко­ва­ли ре­зуль­та­ты экс­пе­ри­мен­та, в рам­ках ко­то­ро­го все­го за 13 ча­сов они со­зда­ли ге­не­ра­тор по­ли­ти­че­ских ре­чей на ба­зе бо­лее се­ми ты­сяч тек­стов вы­ступ­ле­ний в ООН с 1970 по 2015 год. Для про­ве­де­ния экс­пе­ри­мен­та уче­ные по­тра­ти­ли все­го во

семь дол­ла­ров на об­лач­ные вы­чис­ле­ния Amazon Web Services. В ре­зуль­та­те экс­пе­ри­мен­та уче­ным в 90% слу­ча­ев уда­лось по­лу­чить ка­че­ствен­ные, прак­ти­че­ски неот­ли­чи­мые от со­здан­ных че­ло­ве­ком тек­сты. Как ука­зы­ва­ют ав­то­ры, при незна­чи­тель­ном ре­дак­ти­ро­ва­нии эти тек­сты мож­но пуб­ли­ко­вать.

В иде­а­ле один и тот же ал­го­ритм спо­со­бен со­зда­вать ты­ся­чи но­вост­ных сю­же­тов на опре­де­лен­ную те­му, де­лать это быст­ро, де­ше­во и, воз­мож­но, с мень­шим ко­ли­че­ством оши­бок, чем лю­бой че­ло­век. Ес­ли это про­изой­дет, то зна­чи­тель­ная часть со­зда­ния кон­тен­та пе­рей­дет в ру­ки ро­бо­тов, что при­ве­дет к со­кра­ще­нию ра­бо­чих мест в но­вост­ных ре­дак­ци­ях. Associated Press, од­но из круп­ней­ших и ав­то­ри­тет­ных но­вост­ных агентств, на­ча­ло ав­то­ма­ти­зи­ро­вать пуб­ли­ка­цию сво­их еже­квар­таль­ных от­че­тов о кор­по­ра­тив­ной при­бы­ли. Ве­ду­щие ме­ди­а­ком­па­нии, та­кие как Forbes, New York Times, Los Angeles Times и Washington Post, уже на­ча­ли ав­то­ма­ти­за­цию сво­е­го но­вост­но­го кон­тен­та. По­ка это ка­са­ет­ся в ос­нов­ном ма­те­ри­а­лов фи­нан­со­во­го ха­рак­те­ра: ро­бот лег­ко мо­жет от­сле­жи­вать по­яв­ле­ние ак­ту­аль­ных бир­же­вых дан­ных и в стан­дар­ти­зи­ро­ван­ном ви­де со­зда­вать но­вость по те­ме. Bloomberg News ста­ли од­ни­ми из пер­вых в этой ни­ше, их си­сте­ма Cyborg са­мо­сто­я­тель­но вы­пус­ка­ет ты­ся­чи ста­тей по фи­нан­сам.

По­доб­ные ал­го­рит­мы, как ни стран­но, вос­при­ни­ма­ют­ся мно­ги­ми ав­то­ра­ми по­зи­тив­но: ма­ши­на те­перь вы­пол­ня­ет всю чер­но­вую ра­бо­ту, а осмыс­ле­ние со­бран­ных и об­ра­бо­тан­ных дан­ных уже де­ло че­ло­ве­ка. Бо­ять­ся нече­го, ре­чи о пол­но­цен­ной за­мене жур­на­ли­стов ро­бо­та­ми по­ка не идет, а ав­то­ры пе­ре­хо­дят на бо­лее вы­со­кую сту­пень в це­поч­ке со­зда­ния до­бав­лен­ной сто­и­мо­сти. В то же вре­мя со­кра­тить ар­мию жур­на­ли­стов-ре­рай­те­ров и ко­пи­рай­те­ров, пе­ре­пи­сы­ва­ю­щих од­ни и те же но­во­сти, но­вые ал­го­рит­мы вполне спо­соб­ны. Ал­го­рит­мы мо­гут ис­поль­зо­вать од­ни и те же дан­ные, что­бы рас­ска­зы­вать ис­то­рии на раз­ных язы­ках и под раз­ны­ми уг­ла­ми, тем са­мым пер­со­на­ли­зи­руя их в со­от­вет­ствии с пред­по­чте­ни­я­ми чи­та­те­лей.

Под­стег­нуть но­вую тех­но­ло­гию спо­со­бен про­гресс в ма­шин­ном пе­ре­во­де с ино­стран­ных язы­ков. Это на­прав­ле­ние с каж­дым го­дом про­грес­си­ру­ет, и ком­пью­те­ры уже спо­соб­ны пе­ре­во­дить ти­по­вые кус­ки ин­фор­ма­ции не ху­же че­ло­ве­ка. Ро­бо­ты-жур­на­ли­сты в пер­спек­ти­ве да­дут еще од­но пре­иму­ще­ство — смо­гут ге­не­ри­ро­вать но­во­сти по за­про­су, опе­ра­тив­но со­зда­вая сю­же­ты в от­вет на во­про­сы чи­та­те­лей или по ито­гам ана­ли­за ком­мен­та­ри­ев к ста­тьям.

В то же вре­мя на­вод­не­ние ро­бо­ти­зи­ро­ван­ны­ми сю­же­та­ми и так пе­ре­гру­жен­но­го ин­фор­ма­ци­ей ин­тер­не­та при­ве­дет к це­ло­му ря­ду кри­зи­сов. Во-пер­вых, та­кая жур­на­ли­сти­ка су­ще­ствен­но уве­ли­чит ко­ли­че­ство до­ступ­ных но­во­стей, что услож­нит для чи­та­те­лей поиск наи­бо­лее ак­ту­аль­но­го кон­тен­та. Во-вто­рых, ав­то­ма­ти­зи­ро­ван­ные и пер­со­на­ли­зи­ро­ван­ные но­во­сти лишь углу­бят про­бле­му ис­ка­же­ния ин­фор­ма­ци­он­ной кар­ти­ны, что про­ис­хо­дит се­год­ня на при­ме­ре по­ис­ко­вых се­тей. Это, воз­мож­но, бу­дет спо­соб­ство­вать фраг­мен­та­ции об­ще­ствен­но­го мне­ния да­же по про­стым во­про­сам. В-тре­тьих, зло­упо­треб­ле­ния со сто­ро­ны лиц, кон­тро­ли­ру­ю­щих ме­диа, мо­гут со­здать со­вер­шен­но но­вые ин­стру­мен­ты управ­ле­ния мас­са­ми.

Все идет к то­му, что плат­фор­мы бу­дут уси­ли­вать до­ми­ни­ро­ва­ние в ин­тер­не­те, все боль­ше да­вая поль­зо­ва­те­лям пер­со­на­ли­зи­ро­ван­ный кон­тент. Та­ким об­ра­зом, по­ве­де­ние поль­зо­ва­те­ля бу­дет за­мы­кать­ся в рам­ках од­ной до­ми­ни­ру­ю­щей си­сте­мы и на се­бе са­мом. Дроб­ле­ние та­ких платформ, по-ви­ди­мо­му, воз­мож­но лишь ли­бо за­ко­но­да­тель­ным об­ра­зом, ли­бо по­сле по­яв­ле­ния но­вых кон­ку­рент­ных ком­па­ний, чей уро­вень сер­ви­са бу­дет пре­вос­хо­дить плат­фор­мы. Од­на­ко раз­ви­тие тех­но­ло­гий ма­шин­но­го обу­че­ния тре­бу­ет мас­со­во­го при­то­ка дан­ных, и вла­дель­цы мил­ли­ард­ной ауди­то­рии здесь в вы­иг­ры­ше, по­это­му вой­на с плат­фор­ма­ми уже про­иг­ра­на и неза­ви­си­мый ин­тер­нет все боль­ше ухо­дит в тень. Тем не ме­нее раз­ви­тие тех­но­ло­гий об­ра­бот­ки есте­ствен­но­го язы­ка чре­ва­то по­яв­ле­ни­ем ка­че­ствен­ных пер­со­на­ли­зи­ро­ван­ных фей­ков, что в пер­спек­ти­ве спо­соб­но по­до­рвать оли­го­по­лию мас­со­вых сер­ви­сов. Пер­вые рост­ки кри­зи­са уже ста­ли за­мет­ны на при­ме­ре недав­них про­блем Facebook, и пре­тен­зии к «Ян­дек­су» — лишь часть это­го гло­баль­но­го про­цес­са. ■

Сер­гей Брин и Лар­ри Пейдж

Ар­ка­дий Во­лож и Илья Се­га­ло­вич

Источ­ник: «Ви­ки­пе­дия»

Newspapers in Russian

Newspapers from Russia

© PressReader. All rights reserved.