Использование больших данных для политического продвижения и рекламы

Использование больших данных для политического продвижения и рекламы

Все мы знакомы с онлайн-рекламой. Иногда она преследует нас в Интернете даже после покупки какого-то товара или услуги, основываясь на нашем поведении в Сети.

Онлайн реклама развивается в мире, особенно в США, Европе, Японии, стремительными темпами. Например, согласно прогнозу авторитетного агентства EMarketer, рынок онлайн рекламы будет расти на 10-12 процентов в течение 2015-2017 годов, а его доля в общем объеме рекламы будет расти. В то же время, онлайн реклама и реклама в социальных медиа, как ее подвид, дешевле телевизионной или печатной, а объем рекламного инвентаря в ней гораздо больше.

В этой отрасли сложились эффективные технологические механизмы для отслеживания и идентификации пользователей на различных устройствах.

Постепенно технологии, отработанные коммерческими рекламодателями и позволяющие поднять уровень узнаваемости и принести конверсии рекламы в продажи, стали использоваться командами кандидатов в ходе избирательных кампаний.

В Интернете хранится огромный объем данных о каждом пользователе, своеобразный «отпечаток», сочетание которых дает возможность найти уникального пользователя для передачи политического сообщения по гораздо более комплексным характеристикам, чем социально-демографические признаки.

Всю совокупность данных и пользователях сети, их действиях называют общим термином Big Data («большие данные»), что означает процесс и методы сортировки и анализа структурированных и неструктурированных данных огромного объема (измеряемые в терабайтах), которые непрерывно растут. К таким данным относят действия пользователей Интернет, потоки сообщений в социальных сетях, данные о местоположении и многое другое.

В Интернете процесс сопоставления и хранения таких характеристик пользователя происходит автоматически – задача идентификации, это «узнать» пользователя по различным признакам, а затем сохранить новую информацию о его действиях или предпочтениях и сопоставить со старой.

Способы идентификации уникального пользователя можно условно разделить на две группы, это технологические и персональные.

К первой группе относятся следующие способы:

  1. Cookie («куки») – небольшой фрагмент данных, хранящийся в браузере каждого пользователя.
  2. Пиксель – невидимое изображение размером 1 на 1 пиксель, отслеживающее действия пользователей на сайте (заход на страницу, скачивание, ввод регистрационных данных, просмотр рекламы и т.д.)
  3. IP-адрес (MAC-адрес) – уникальный идентификатор устройства при соединении с сетью.
  4. Digital fingerprint (сетевой отпечаток) – это совокупность различных особенностей устройства (UserAgent), с которого пользователь заходит в Интернет – операционная система, версия, браузер, типа устройства, производитель, различные установленные в браузере плагины, часовой пояс, язык браузера, кодировка, разрешение экрана и т.д.

Считается, что сочетание всего 4-х таких уникальных компонентов позволяет в сумме идентифицировать любого пользователя в мире, а на самом деле компонентов гораздо больше.

Ко второй группе, которая представляет больший интерес с точки зрения политической коммуникации и рекламы, относятся следующие методы:

  1. Сегменты – это узкая категория, к которой относится пользователь в результате различных действий на интернет-ресурсах. Подобных сегментов может быть до нескольких тысяч, и они могут быть довольно узкими. Зачастую сегменты организовываются в виде «дерева», то есть более широкая категория делится на более узкие (Владельцы автомобилей — владельцы электромобилей — владельцы седанов — владельцы конкретной марки и т.д.).
  2. История посещений сайтов и приложений. Исследования показали, что пользователь определяется с точностью до 97 процентов по частому посещению всего 4 уникальных сайтов и приложений

Сегмент – это комплексная характеристика, дающая в сумме некоторую категорию пользователя (например, сегменты читатель Wall Street Journal, Бизнес, ИТ, B2B могут в сумме означать категорию «руководитель ИТ-департамента», а сегменты «родительство», «экология», «здоровое питание», «домоводство» – «молодой родитель с экологичным образом жизни»), чтобы затем показывать ему адресовала правильная онлайн реклама.

Ключевой момент здесь, что сегментный таргетинг фиксирует взаимоотношение характеристик пользователя, причем наиболее важными в данном случае будут считаться не социально-демографические (возраст, пол, раса, место проживания), а функциональные характеристики – образ жизни, интересы, профессиональная деятельность.

С каждым новым технологическим витком количество уникальных характеристик, дающих в сумме каждого пользователя, увеличивается, компании учатся находить пользователей по ним, например, в настоящее время к таким характеристикам также относят способ набора на клавиатуре (он практически уникален для каждого).

Все ранее отмеченные способы позволяют узнавать и сопоставлять пользователя на различных устройствах – компьютере, планшете, смартфоне, телеприставке и т.д. (cross-device matching), а затем осуществлять так называемый таргетинг.

Таргетинг – это способ выделения из всей аудитории только целевого сегмента (чаще — нескольких), чтобы показывать рекламу только ему.

Геотаргетинг, например, представляется нам эффективным инструментом для локальных избирательных кампаний, позволяя, во-первых, отсеять географически нерелевантной электорат и не транслировать им политические сообщения, а во-вторых, сегментировать свой собственный электорат, например, транслируя жителям разных локальных зон разные сообщения.

В сфере политической рекламы таргетинг осуществляется с помощью покупки специальных баз данных с информацией об избирателях и последующим микротаргетингом по ним. Такая практика активно распространена в США, есть целый ряд крупных компаний, занимающихся агрегированием огромного объема данных (data points) обо всех гражданах, имеющих право голосовать, важный момент заключается в том, какие это данные — интерес для таких компаний и команд кандидатов представляют сущностные характеристики пользователя (семья, достаток, образ жизни, наличие автомобиля, путешествия), а не возраст, пол или раса. К таким компаниям относятся Cambridge Analytics, Aristotle, Catalyst.

Кроме того, избирательные команды могут покупать данные и у коммерческих провайдеров (Data Management Platforms), которые обычно поставляют данные для сектора онлайн-торговли (данные о покупателях).

Второй источник – это «оффлайн» данные, то есть более формализованные данные об избирателях, например, списки зарегистрированных избирателей и сторонников (Voter Registration Data Base, существующие в каждом штате и содержание имена и адреса, а также партийную принадлежность граждан), данные прежних и текущих политических кампаний, включающие волонтеров и благотворителей.

В то же время, у команд кандидатов есть свои данные об избирателях, например, посещающих их сайт или приложение (first party data). Сопоставление этих данных дает очень точную целевую аудиторию, которое затем можно транслировать политические сообщения. Технологически процесс сопоставления данных каждая команда решает по-своему — через ID пользователей Facebook или Twitter или по cookie ID, но чаще этот процесс осуществляется специализированными компаниями.

Если рынок по сбору данных о пользователях в том числе и избирателях достаточно насыщен, то вопрос анализа и правильного применения такого объема данных пока еще является актуальным и открытым, он лежит в области так называемой data science. Пока лишь ограниченное число крупных DSP (demand-side platforms), которые управляют рекламными кампаниями на технологическом уровне, предоставляют услуги для политических штабов. На этом рынке начали работать как коммерческие платформы, как Retargeter[1], Adroll[2], так и специализирующиеся только на политических кампаниях, например, SCL-Elections[3], DSPolitical[4], Grassroots Targeting[5], El Toro и другие.

Чем больше объем данных и каждом пользователе и чем более аккуратно они сопоставлены между собой, тем более эффективным будет прогноз поведения пользователей и выбор релевантных рекламных сообщений (онлайн реклама и реклама в социальных медиа).

В коммерческой сфере активно используется так называемый ретаргетинг – это «преследование пользователя искомыми продуктами или услугами после того, как он уже ознакомился с ними на сайте или предпринял попытку купить. В ходе президентской кампании 2012 года команда Обамы активно пользовалась механизмом ретаргетинга, показывая посетителям сайта кандидата рекламу в режиме реального времени. Например, баннеры с приглашением выиграть пригласительный билет на вечер Двух  Президентов (вечер с участием Обамы и Клинтона 4 июля 2012 года) очень активно демонстрировались пользователям в различных каналах – на веб-сайтах, в социальных медиа.

Если расширенные данные о пользователе применяются в ходе политических кампаний уже в течение 3-5 лет, то наиболее новаторской опцией является таргетинг по психологическому портрету пользователя, который предлагает Cambridge Analytica[6]. Компания использует немного изменению типологию Майерс-Бриггс для психологического профилирования личности, методика которой активно используется службами по подбору персонала и образовательными учреждениями для определения особенностей личности сотрудника/абитуриента[7]. Суть в том, что был сделан срез по всей базе данных избирателей, о которых есть набор информации, и проведены опросы, содержащие вопросы для выявления психологических характеристик и мотиваций людей. Этот психотип личности совмещается с другими уже собранными данными и позволяет поднять релевантность таргетинга на электорат. В настоящее время данную услугу приобрел штаб кандидата в Президенты США от Республиканской партии США Теда Круза[9].

Технологии больших данных достаточно сильно развиты в коммерческой сфере и политические кампании здесь немного запаздывают, тем не менее, для тех и других релевантными могут быть одни и те же данные, поэтому не за горами взрыв популярности применения данных из Интернет-истории пользователя (особенно, мобильного Интернете) в области предвыборных кампаний. Отмечу однако, что в России такие технологии практически не применяются, хотя последнее утверждение требует отдельного изучения.

Автор: Виталий Павлович Ермолаев