Data Fusion: инновационные технологии национального медиаизмерения аудитории телевидения
реализация исследовательского проекта медиаизмерения аудитории, как и проведение классического социологического исследования посредством применения опросного метода (например, массовый опрос «лицом к лицу»), предполагает построение выборочной совокупности для обеспечения репрезентативности получаемых эмпирических показателей. при этом необходимо отметить, что при общих методологических подходах к формированию выборок медиаизмерения и опроса общественного мнения применяют разные направления исследовательского поиска. при осуществлении опроса общественного мнения мы исследуем установки, субъективные представления, предпочтения, пытаясь при этом условно «проникнуть» в голову
Об авТОрЕ
УДК: 316.776
александр посталовскИй. Data Fusion: инновационные технологии национального медиаизмерения аудитории телевидения. В статье проанализированы особенности применения методики Data Fusion (объединение больших данных и показателей репрезентативной пиплметрической панели) при измерении рейтинговых показателей телесмотрения национальной аудитории ТВ. Раскрыты особенности социологического подхода к интерпретации больших данных и показателей пиплметрической панели. Воспроизведена логика и стадиальность процесса реализации методики Data Fusion на практике. ключевые слова: телеизмерения, аудитория, телевидение, Data Fusion, пиплметрия.
Alexander POSTALOVSKY. Data Fusion: Innovative technologies for national media measurements of television audience. The article discusses the use of the Data Fusion methodology (combining “big data” and a representative peoplemetric panel) when measuring ratings of television viewing of the national TV audience. The author examines the sociological approach to the interpretation of “big data” and indicators of the peoplemetric panel and reproduces the logic and stages of the use of the Data Fusion methodology.
Keywords: telemetry, audience, television, Data Fusion, peoplemetrics.
посталовскИй александр владимирович.
родился в 1985 году в г. костроме (россия). окончил минский государственный торговый колледж (2004), академию мвд республики беларусь (2009), магистратуру (2010) и аспирантуру (2014) бгу. докторант кафедры социологии бгу.
трудовую деятельность начал в 2009 году. работал на различных должностях в центре социологических и политических исследований бгу, зао «медиаИзмеритель», на факультетах журналистики и философии и социальных наук бгу. с марта 2023 года – заместитель директора по научной работе Института социологии нан беларуси. кандидат социологических наук (2017), доцент (2021). автор более 100 научных публикаций, в том числе трех монографий.
сфера научных интересов: социология смИ, медиаизмерения рейтингов аудиовизуальных смИ, медиасоциология, электоральная социология, политическая конфликтология.
(сознание) респондента. результатом проведенного интервью выступает отраженное в эмпирических показателях субъективное мнение (отношение) респондента к кому(чему)-либо.
в свою очередь медиаизмерения по своему функциональному назначению не изучают общественное мнение, хотя в основе их практической реализации тоже лежит принцип построения выборочной совокупности (специальный отбор единиц наблюдения из генеральной совокупности) для обеспечения репрезентативности эмпирического массива, как не изучают и субъективные оценки испытуемых. медиаизмерения направлены прежде всего на анализ фиксации присутствия респондента в эфире (телевидение, радиовещание, сетевое пространство). если в случае с опросом общественного мнения (классическая социология) нас может интересовать отношение респондента к источнику воспроизводства массовой информации («как часто вы смотрите телевизор?», «какие телепрограммы вы предпочитаете смотреть?»), то в случае с медиаизмерениями (медиасоциология) исследовательская парадигма строится на следующих основаниях: смотрел или не смотрел тв; если смотрел, то в какое время и кто (мужчина, женщина, ребенок, пожилой) находился в данный момент у экрана телевизора. основной задачей классической социологии выступает анализ мнения (субъективная оценка происходящего), а основная задача медиаизмерения – фиксация обращения к информационному контенту.
учитывая теоретико-методологические различия в области исследовательского поиска, для реализации медиаизмерений аудитории аудиовизуальных смИ есть своя специфика, в том числе и при построении выборочной совокупности аудиторных исследований. в традиционном опросе общественного мнения при однородности генеральной совокупности относительно небольшой объем выборки позволяет получить адекватный уровень репрезентативности и допустимый показатель ее ошибки. в свою очередь аудитория современных смИ, в частности телевидения и радио, не является однородным исследовательским объектом. телевизионный контент условный зритель может потреблять как в сетевом пространстве, пользуясь планшетом или десктопным персональным компьютером, так и находясь в визуальной коммуникации непосредственно с телевизором. телесмотрение может осуществляться в рамках визуального контакта с телевизионным контентом из эфирной сетки вещания в режиме реального времени и посредством отложенного просмотра. указанные аспекты позволяют говорить о том, что аудитория телевидения является сегментированной и неоднородной по своему содержанию.
неоднородность исследовательского объекта требует объективного увеличения объема выборочной совокупности для получения репрезентативности эмпирических показателей. медиаисследовательские компании, занимающиеся пассивными измерениями (пиплметрия) аудитории телевидения, находятся в перманентном процессе условного расширения своей панельной матрицы (панель – специально отобранные домохозяйства, оснащенные пиплметрами, которые участвуют в исследовании на постоянной основе определенной периодичности) за счет интернет-аудитории, дачного просмотра, гостевого просмотра, системы «видео по запросу» и т. д. Изменение практик медиапотребления телевизионной аудитории требует постоянной трансформации выборочной совокупности и ее корректировки в соответствии с трендами современного телесмотрения.
немаловажное значение приобретают также так называемые большие данные (Big Data) цифровой фиксации присутствия в эфире телезрителей (данные цифровых телевизионных приставок), которые в медиаисследовательской практике определяются как RPD-данные. данные о работе тв-приставок с обратной связью (Return Path Data – RPD), применяемые для доставки пользователям тв сигнала руп «белтелеком» (далее – RPD-данные), выступают в качестве объемного массива больших данных о телесмотрении без привязки к социально-демографическому профилю телезрителя. указанные данные не являются в полной мере репрезентативными аудиторными показателями, однако их интеграция в эмпирический массив телевизионных измерений позволит существенным образом дополнить показатели телесмотрения классической пиплметрической панели. в зарубежной медиасоциологии сформированы подходы к интеграции RPD-данных и показателей
пиплметрической панели, однако в научной среде недостаточно представлены публикации, посвященные анализу преимуществ и ограничений Return Path Data в медиаизмерениях. сам по себе процесс объединения в одну выборку двух принципиально разных эмпирических массивов (Data Fusion) выступает инновационным подходом к изучению медиаисследовательской практики. учитывая вышесказанное, целью представленной статьи выступает рассмотрение особенностей применения технологии фиксации телесмотрения Data Fusion при измерении показателей национальной телевизионной аудитории.
в настоящее время в беларуси реализуется проект национального медиаизмерения аудитории телевидения. в этой связи национальным измерителем зао «медиаИзмеритель» (статус национального медиаизмерителя определен указом президента республики беларусь от 9.04.2020 года № 122 «о создании системы медиаизмерений») на основании установочных исследований аудитории тв сформирована панельная выборка (группа постоянных участников исследования) в размере 550 домохозяйств, представляющих городское население беларуси (столичный регион, областные города, города с населением 100 тыс. человек и более, города с населением менее 100 тыс. человек). Фиксация показателей телесмотрения осуществляется посредством пиплметров, которые устанавливаются на каждый работающий в доме телевизор. применительно к организации медиаизмерений телевидения, проводимых посредством пассивного измерения (пиплметрия), в рекрутируемой телевизионной панели домохозяйств для уточнения показателей эмпирического массива возможно формирование Fusion-панели («гибридные» телеизмерения).
Fusion-панель – это «интегрированный массив эмпирических больших данных (Big Data) телевизионных приставок STB (set-top boxes, STB – ресиверы тв-приставок руп «белтелеком») и показателей телевизионной панели, оснащенной пиплметрическими (PM) устройствами фиксации телесмотрения» [1, с. 237]. панель Data Fusion (PM + STB) представляет собой «многоэтапный процесс интеграции (слияния) данных STB (set-top boxes, STB – ресиверы тв-приставок руп „белтелеком“) – сплошных объемных данных телесмотрения, получаемых по каналам обратной связи (return path data, RPD) без привязки к социально-демографическому блоку (исследователь не знает, кто в настоящее время сидит у экрана телевизора) и репрезентативных данных, получаемых из телевизионной панели PM, которая наделена социально-демографическими показателями (исследователю доступен социально-демографический профиль аудитории)» [1, с. 237]. по верному замечанию е.л. богдановой, «несмотря на то, что сегодня основным источником данных являются панели, созданные независимыми от отрасли компаниями, успех в новом мире больших данных потребует сочетания традиционной модели медиарейтингов и информации о поведении аудитории, получаемой в реальном времени» [2, с. 247].
в указанных контекстах в телеизмерениях начинают структурно оформляться два направления исследования аудитории. первое – классическая телевизионная панель домохозяйств, оснащенная пиплметрами. второе – RPD-исследования больших данных ресиверов телевизионных приставок Set Top Box. особенность данного вида измерения, как отмечает м. каменская, в том, что «RPD-исследования могут проводиться на всей абонентской базе, а не на выборке, что повышает точность измерений и позволяет анализировать даже очень малые аудитории каналов» [3, с. 56].
преимущества RPD-данных основываются на ликвидации нулевых значений телесмотрения, повышении точности измерений аудитории малых, узкотематических телевизионных каналов. эвристический потенциал включения RPD-данных видится также в увеличении объема социологической выборки без изменения количества домохозяйств, оснащенных пиплметрами, что существенным образом позволяет снизить издержки на содержание панели нежели при классическом увеличении численности домохозяйств.
как отмечает м.м. назаров, «в отличие от пиплметрических панелей, RPD-данные по своей природе не являются изначально ориентированными на цели измерения. эти данные являются технологическим продуктом функционирования современных коммуникационных сервисов, основной целью которых является обеспечение доступа потребителей к видеоконтенту» [4, с. 75].
при анализе RPD-данных необходимо отметить наличие такого феномена, как аномальные сеансы просмотра, которые возникают по причине выключения телевизора без выключения приставки, в результате чего большое количество приставок фиксирует просмотр тв как в ночное, так и в дневное время.
у RPD-исследований больших данных есть существенные ограничения, которые не позволяют в полной мере заменить данные пиплметрической модели. в данном случае, пишет м. каменская, «необходимо понимать, что Set Top Box – это не пиплметр в чистом виде. обладая рядом бесспорных преимуществ, обычный ресивер все-таки может передавать лишь информацию,„измеренную в телевизорах“. то есть, когда оператор получает сведения, что из 1000 приборов, которые он установил у своих абонентов, на 250 смотрят канал х, это еще не означает, что этот канал смотрит каждый четвертый зритель. И даже не то, что канал смотрит каждая четвертая семья. более того, реальная аудитория канала х в этот момент может быть как меньше, так и больше 250 человек или 250 домохозяйств» [3, с. 56]. соответственно, несмотря на явные преимущества наличия объемных и уточненных по сравнению с телевизионной панелью данных, исследователь абсолютно не знает, кто в настоящее время находится у экрана телевизора. в свою очередь в пиплметрической панели данный вопрос регулируется посредством нажатия кнопок пульта пиплметра. для телевизионного сегмента информационного поля и для телеиндустрии в частности необходимо понимание того, кто именно и в каком социально-демографическом разрезе представлен зритель.
оптимальным методологическим решением в данном случае выступает слияние двух разнонаправленных эмпирических баз – данные, получаемые из пиплметрической панели, и большие данные ресиверов телевизионных приставок. Интегративный (объединенный) массив данных приставок STB, получаемых по каналам обратной связи RPD, и PM (пиплметрическая панель) в практике реализации медиаизмерений определяется как Data Fusion. по мнению с.а. вартанова, Data Fusion – это «процесс, объединяющий две базы данных на уровне их элементов на основе их близости по определенному набору общих переменных этих баз. в частности, применительно к рассматриваемому случаю соединения данных STB и пиплметров объединение может происходить на основе паттернов телесмотрения, включающих в себя любые проявления телезрительской активности» [5, с. 51]. заявленная стратегия объединения двух массивов («гибридные» телеизмерения) эмпирических данных в медиаметрии нашла свое отражение в медиаисследовательских компаниях Nielsen, TNS, Rentrak и Kantar Media.
вместе с тем методологические подходы построения на практике методики «гибридных» (кроссмедийных) телеизмерений, как правило, является патентным интеллектуальным продуктом, доступ к которому ограничен. западные исследовательские компании не раскрывают информации относительно алгоритма исследовательских процедур, применяемых к работе с базами аудиторных данных пиплметрической панели и RPD-данными Big Data ресиверов телевизионных приставок Set Top Box. в связи с чем реализация данной методики возможна только экспериментальным путем в результате аналитической работы с двумя базами аудиторных данных. на основании экспериментальной пилотажной работы с массивами PM и RPD-данными STB автором разработан и описан теоретико-методологический подход к реализации методики «гибридного» телеизмерения аудитории.
в рамках заявленного подхода исследовательская реализация интеграции (слияния данных) телевизионной Big Data и пиплметрической телевизионной панели является стадиальным процессом, включающим в себя следующие этапы:
1. работа с базой данных цифрового телевидения (STB – приставки). в рамках указанного этапа аналитиками зао «медиаИзмеритель» производится процедура кэппинга (обрезка) аномально длительных временных сессий телевизионного смотрения. аномально длительная сессия телесмотрения представляетсобойявлениеfalsepositives(STBon–TVoff)–фиктивныйпросмотртелевидения,когдателевизор выключен, а тв-приставка остается включенной. руп «белтелеком» предоставляет удаленный доступ к базе данных телесмотрения приставок STB. эмпирические показатели базы данных руп «белтелеком» интегрируются в программное обеспечение обработки данных Instar Analitics исследовательской
компании зао «медиаИзмеритель». соответственно, в одном программном пакете формируется два массива данных – Big Data приставок STB (белтелеком) и аудиторные данные пиплметрической панели (зао «медиаИзмеритель»).
если пиплметрия фиксирует показатели телесмотрения на основании записи звуковых сигнатур эфирного вещания телевизора (время его работы во включенном состоянии), то сессия просмотра в приставках STB формируется на основании объема данных, получаемых с работающей тв-приставки. при этом сам по себе факт включения или невключения телевизора не принимается во внимание. соответственно, может формироваться ситуация, при которой зритель не смотрит телевизор, но в это время в домохозяйстве (квартире) работает телевизионная приставка цифрового вещания, которую он забыл выключить. в данном случае производится «кэппинг» («обрезка») аномальных сессий телесмотрения (обрезка длительной сессии просмотра, которая превышает объем в 300 минут – свыше пяти часов беспрерывного смотрения одного и того же телевизионного канала).
2. выявление общих паттернов телесмотрения в эмпирических массивах STB (телевизионные приставки) и PM (телевизионная панель постоянных участников исследования, телесмотрение которых фиксируется пиплметрами). например, в домохозяйстве х пиплметрической панели (PM) в период месячного наблюдения за привычками и особенностями потребления телевизионного контента был сформирован следующий зрительский портрет: общая сессия смотрения составляет 180 минут в сутки, фиксируется преимущественно вечернее телесмотрение (130–150 минут) одного-двух телеканалов. сформировав указанную модель телепотребления, в эмпирической базе STB (телевизионные приставки) производится поиск домохозяйств со схожими привычками просмотра тв, который, как уже отмечалось выше, составляет 180 минут в сутки с ярко выраженным вечерним просмотром одного-двух телеканалов. на основании цифрового поиска получается примерно 23 972 телевизионные приставки, которые соответствуют указанному паттерну телесмотрения, зафиксированного в конкретном домохозяйстве репрезентативной телевизионной панели.
3. наделение STB (телевизионные приставки) домохозяйств социально-демографическими характеристиками телевизионной панели (PM). например, при фиксируемом выше паттерне телесмотрения (180 минут в сутки с ярко выраженным вечерним просмотром одного-двух телеканалов) смотрела телевизор молодая семья в возрасте 25–28 лет в панели PM. соответственно, возрастной диапазон 25–28 лет накладывается на выявленные 23 972 телевизионные приставки, т. е. формируется допустимое суждение, что выявленный паттерн смотрения тв сформирован именно при таких возрастных параметрах аудитории.
результаты эксперимента
проведенный пилотажный (тестовый) замер рейтинговых показателей телесмотрения в рамках применения методологического инструментария панели Data Fusion показал высокую степень совпадения паттернов просмотра тв как внутри домохозяйств пиплметрической панели, так и в массиве больших данных тв-приставок. возможная погрешность в объемах телесмотрения (допустимый предел) составляет 5–20 минут. указанный временной период, как правило, продлевает общую сессию телесмотрения тех каналов, которые смотрит зритель и в телевизионной панели (пиплметрия). возможны также случаи просмотра дополнительных каналов, которые не зафиксированы в домохозяйствах, оснащенных пиплметрами. указанная ситуация подтверждает гипотезу об эмпирическом дополнении данных телевизионной панели пассивного измерения тв посредством слияния с Big Data телевизионных приставок STB [6, с. 71]. анализ первичных тестовых данных позволил получить следующие результаты: на рисунке 1 визуально представлены показатели по трем направлениям – приставки RPD (данные руп «белтелеком»), панель Atria (данные зао «медиаИзмеритель») и Data Fusion (RPD и Atria = объединение
данных). наиболее высокие показатели у приставок RPD без «обрезки» аномальных сессий телесмотрения, точки пересечения и усреднения показателей отмечаются в массивах панели Atria и Fusion (объединенные данные), при этом у Fusion отсутствуют нулевые сессии смотрения.
на рисунке 2 в качестве примера представлены показатели в разрезе конкретного телевизионного канала. мы видим, что RPD-данные «ликвидировали» 16 % эфирного времени нулевого смотрения. при этом заметны тенденции нивелирования и обрезки верхних пороговых рейтинговых значений. указанная ситуация обусловлена разными весовыми значениями коэффициентов взвешивания (атриа – 2,47; рпд – 0,12). аудиторные данные с низкими коэффициентами взвешивания уменьшают общие показатели телесмотрения в интегративной базе данных. соответственно, формируется тенденция одновременного снижения верхних пороговых значений и снятия феномена «нулевого смотрения».
в наибольшей степени модель Data Fusion (интегрированный массив атриа и рпд) подходит для анализа аудиторий малых и узкотематических каналов. согласно данным пиплметрической панели, для таких телеканалов характерны высокие показатели «нулевого смотрения» на уровне 60 % эфирного времени и выше (рис. 3).
согласно представленным на рисунке 3 данным, в содержание показателей панели в отношении телеканала 65 % эфирного анализируемого времени составили «нулевые интервалы», в то время как применение Data Fusion снизило показатель нулевого смотрения до 16,7 %.
проведенный анализ механизма реализации исследовательской компанией зао «медиаИзмеритель» методологического инструментария панели Data Fusion в медиаизмерениях телевидения позволяет сделать следующие выводы. применение методики «гибридных» медиаизмерений рейтинговых показателей телевидения дает возможность в некоторой степени расширить и уточнить эмпирические значения медиапоказателей, которые необходимы для понимания перспектив развития телеиндустрии.
бесспорным преимуществом интеграции RPD-данных с показателями пиплметрической панели выступает ликвидация нулевых сессий телесмотрения. в связи с чем в программе обработки данных «Инстар аналитикс» нет пропущенных нулевых значений, и в контексте медиааналитики будут отсутствовать позиции об отсутствии просмотра в определенный период времени. в данном случае в контексте медиасоциологии происходит увеличение объема выборки, причем увеличение происходит посредством слияния двух принципиально разных эмпирических баз (социально-демографическая панель с высокими весовыми значениями показателя одного респондента и обезличенного в демографическом плане массива больших данных с низкими весовыми коэффициентами). аудиторные показатели в данном случае уточняются и становятся более репрезентативными за счет увеличения выборочной совокупности неоднородного эмпирического массива.
в наибольшей степени в современных условиях от использования методологии Data Fusion выигрывают телеканалы с малой аудиторией или узкотематические каналы, поскольку нулевые сессии телесмотрения у них снижаются почти на 50–55 % по сравнению с данными пиплметрической панели, в связи с чем представляется рациональным предложение «нишевым» телеканалам использовать именно эту методику измерения аудиторных показателей.