Лента новостей
Депутаты предложат ужесточить правила поступления в вуз после колледжа 04:31, Статья Дамаск сообщил о «коварной западне» и 14 погибших полицейских в Тартусе 04:17, Новость «Оборонлогистика» раскрыла детали взрывов перед затоплением Ursa Major 04:01, Статья Подполковника Росгвардии обвинили в превращении полигона в свалку 03:36, Статья Байден поручил Пентагону продолжить наращивать поставки оружия Украине 03:28, Новость Такси въехало в толпу на тротуаре в Нью-Йорке 02:47, Новость Курдский генерал предупредил об атаках ИГИЛ на города Сирии в Новый год 02:39, Статья Шесть сел Белгородской области остались без света из-за атаки БПЛА 02:21, Новость Мужчина врезался в военкомат в Гусе-Хрустальном и поджег машину 02:04, Новость Порошенко заявил, что можно потерять Украину в случае ближайших выборов 01:59, Статья Как сформировать финансовую подушку безопасности на будущее 01:59 Донецкий аэропорт начнут разминировать в 2025 году 01:31, Новость В «цитадели Асада» в Сирии ввели комендантский час после протестов 01:10, Статья Суд в Москве арестовал мужчину по статье о госизмене 00:52, Новость Появился список погибших при крушении самолета в Актау казахстанцев 00:24, Новость Девушка экс-банкира Лебедева сообщила о расставании 00:12, Статья В Финляндии заявили о возможности мобилизовать 280 тыс. человек за неделю 00:09, Новость ЦБ решил усилить контроль за открытием счетов в банках мигрантам 00:00, Статья
Журнал
Тотальная слежка: как устроен рынок торговли пользовательскими данными
Журнал №04, Апрель 2018 Технологии и медиа,
0

Тотальная слежка: как устроен рынок торговли пользовательскими данными

Использование Facebook штабом Трампа, вирусное приложение GetContact — скандалов со скрытым сбором пользовательской информации все больше. Журнал РБК разобрался, как устроен бурно растущий рынок персональных данных в России
Фото: ТАСС
Фото: ТАСС

Накануне президентских выборов в России газеты The Guardian и The New York Times опубликовали расследования про деятельность британской компании Cambridge Analytica, с которой сотрудничал штаб Дональда Трампа накануне выборов 2016 года. По данным изданий, Cambridge Analytica через онлайн-тест собрала информацию о 50 млн пользователей Facebook и использовала полученные профили для политической рекламы.

В конце февраля россияне увлеклись приложением GetContact — сервисом для проверки незнакомых телефонных номеров. Чтобы получить доступ к услуге, нужно разрешить доступ к своим контактам. Приложение быстро превратилось в сетевое развлечение — посмотреть, под каким именем ты записан в телефонах друзей и знакомых, потом выложить забавный скриншот со своими именами в соцсетях.

К середине марта турецкая Teknasyon, создатель GetContact и партнер сотового оператора Turkcell, собрала по всему миру более 3,5 млрд номеров с именами владельцев, указано на сайте приложения. Согласно пользовательскому соглашению эти данные разработчики могли использовать в маркетинговых целях или передавать третьим лицам (1 марта из документа исключили такую возможность).

История с Cambridge Analytica и всплеск популярности GetContact породили множество инструкций и заметок о том, как избежать передачи посторонним личных данных. Но бурно растущий рынок торговли пользовательской информацией устроен так, что не делиться этими данными почти невозможно.

«Все почему-то любят говорить о слежке, которую ведут спецслужбы, хотя им, грубо говоря, надо найти сотню террористов среди 7 млрд людей, остальные им неинтересны. Зато они интересны другим организациям, которые хотят на них заработать», — описал принцип этого рынка владелец крупной российской платформы по продаже автоматизированной рекламы.

Журнал РБК изучил российский рынок сбора и торговли личными данными, вычислил его крупнейших участников и попытался оценить его объем, пройдя по всем этапам и способам коммерческой слежки.

В интернете: сookies

«Интернет — это как зеркальный пол, а пользователи ходят по нему в ботинках и оставляют за собой следы в любом случае», — говорит сопредседатель отраслевого комитета по Big Data IAB Russia Дмитрий Егоров.

В 2017 году почти 80% всех сайтов мирового интернета были оборудованы счетчиками, виджетами и другими устройствами, собирающими информацию о действиях юзеров, на каждом десятом ресурсе их работает более десяти одновременно, следует из отчета немецкой Ghostery. Основной продукт Ghostery — расширение для браузера по обнаружению этих устройств, которые устанавливают поисковые системы, социальные сети, рекламные агентства или сервисы статистики. Россия вместе с США и Великобританией — в лидерах по числу скрытых датчиков интернет-поведения.

Например, на начало марта 2018 года на Avito.ru работали шесть уникальных трекеров, на HH.ru — семь, на Gismeteo — девять, трекеры были в личных кабинетах нескольких крупных банков, в картотеке арбитражных судов, на страницах министерств и силовых ведомств. Самым популярным «жучком», получающим информацию о поведении пользователей, в Рунете является сервис веб-аналитики «Яндекс.Метрика»: по данным Ghostery, он работает на 52% всех сайтов. На втором месте — трекеры Mail.Ru Group (42%), на третьем — счетчик посетителей Liveinternet (почти 40%).

Через трекеры третьим лицам утекает информация о cookies — данных о поведении юзера на сайте, зашедшего через определенный браузер. Если бы каждый пользователь посещал интернет только с одного устройства, число cookies было бы равно количеству активной аудитории Всемирной паутины. В реальности один человек выходит в Сеть с телефона, планшета, ноутбука, рабочего компьютера, а иногда еще и комбинирует браузеры. В итоге к осени 2017 года в Рунете насчитывалось около 1,8 млрд cookies, следует из данных Mediascope. Столько же cookies видит «Яндекс», сказали журналу РБК в пресс-службе компании.

Для создания картины, более или менее релевантной всему населению страны, необязательно быть ИT-гигантом. Российские DMP-компании (от англ. data management platform — платформы по сбору, сегментации и продаже пользовательских данных) аккумулируют не менее нескольких сотен миллионов cookies. Например, Aidata видит 1,1 млрд, а DCA через свой счетчик Openstat получает 600 млн cookies, рассказали журналу РБК собеседники в компаниях. «Мы видим весь интернет», — говорит глава DCA Александр Зверев.

До 2016 года на рынке первичных данных о пользовательском поведении в Сети был также широко представлен clickstream (буквально «поток кликов») — данные о поведении юзеров, которые продавали интернет-провайдеры. Для этого посредник устанавливал на стороне оператора оборудование, которое автоматически передавало информацию — всю, кроме конфиденциального https-трафика. Но в конце 2015 года управление Роскомнадзора по ЦФО оштрафовало МГТС, «Сумму Телеком» и принадлежащее «Ростелекому» ПАО «Центральный телеграф», усмотрев в этой практике нарушение закона «О связи» (данные арбитражных судов). После этого массовая продажа clickstream прекратилась, хотя он все еще представлен на рынке, рассказали журналу РБК два собеседника в отрасли. В МГТС сообщили, что больше не продают clickstream, в «Сумме Телеком» и «Центральном телеграфе» не ответили на запросы журнала РБК.

Таким образом, игроки рынка аккумулируют колоссальную информацию о поле, возрасте, семейном статусе, профессиональных интересах, потребительских привычках и желаниях всех россиян, постоянно подчеркивая, что используют только обезличенные персональные данные. Интернет-следы служат основой для построения аудиторных сегментов — многоуровневых портретов групп населения, используемых для рекламы, скоринга или поиска сотрудников.

Как из cookies создать портрет человека

В рамках работы над статьей корреспондент журнала РБК купил на одной из барахолок Москвы базу пользователей портала Freelance.ru на 2015 год. Из нее были извлечены 27, 5 тыс. e-mail сервиса «Яндекс.Почта», которые затем были загружены в рекламную платформу «Яндекс.Аудитории». Через два часа сервис выдал результат: построен портрет 70% людей из списка, 62% — мужчины, большинство — из Москвы и Санкт-Петербурга, покупки совершают в основном в интернете, любят путешествовать и заниматься спортом, только 4% пользуются планшетами.

Разрозненные cookies приводятся к единому идентификатору в результате так называемого мэтчинга (от англ. matching, сопоставление), рассказывает директор компании Aidata Евгений Жданов. Проще всего гигантам вроде Google, «Яндекса» или Mail.Ru Group: если пользователь залогинен в их почтовом сервисе, все его поведение привязывается к этому общему знаменателю, рассказывает топ-менеджер одной из DMP-компаний. Гиганты объединяют cookies не только вокруг почты: рекламные площадки «Яндекс.Аудитории» и myTarget от Mail.Ru Group принимают для построения аудиторных сегментов также телефонные номера и ID мобильных устройств, следует из внутреннего интерфейса систем.

Независимым игрокам рынка для построения сегментов приходится либо мэтчить одинаковые cookies, либо использовать связки «cookies плюс e-mail» или «cookies плюс телефон», которые в основном поставляют интернет-магазины, рассказывают собеседники в DMP-компаниях. В итоге получается подробный портрет человека, основанный на его интернет-поведении. Для примера: в список примерных аудиторных сегментов (таксономию) старейшего игрока российского рынка данных DCA входят такие характеристики, как возраст и пол человека, наличие детей (нет, планирует, ждет), намерение купить автомобиль (новый или подержанный), состояние здоровья (интересуется симптомами болезней, ищет информацию о лекарствах, недавно посещал лечебное заведение), предпочтения в покупках (важны бренд, цена или качество), напитках (пиво, вино, вода, сок), досуге (театрал, ходит в кино, клубы), еде (вегетарианец, гурман, адепт здорового питания) и даже «цели»: благотворитель, карьерист, получает образование. В DCA подчеркивают, что это не максимально возможное описание человека, а лишь примеры для конкретных заказчиков.

Cookies дают не только возможность создать портрет человека для показа ему рекламы. С лета 2017 года московская компания Reffection оказывает услугу под названием «ретаргетинг в звонок». На сайте заказчика устанавливается невидимый код, собирающий информацию обо всех посетителях, потом Reffection через свою платформу данных мэтчит cookies с номерами телефонов реальных людей, рассказал журналу РБК исполнительный директор компании Шариф Одинаев. Затем оператор звонит «пойманному» клиенту и в случае его согласия связывает с отделом продаж заказчика, среди которых есть крупные московские застройщики и автодилеры. Поставщиками связки «cookies плюс телефон» выступают агрегаторы купонов и скидок, говорит Одинаев.

«Ретаргетинг в звонок» — пример того, как онлайн-активность человека догоняет его в офлайне. Есть и обратная история: наши действия в «реальном» мире фиксируются, а затем монетизируются в интернете.

На улице, в торговом центре, в метро

«Охотный Ряд» — 734 тыс. человек, «Авиапарк» — 665 тыс., «Мега Химки» — 602 тыс., «Европейский» — 1,3 млн, «Галерея» — 900 тыс., «Мега Дыбенко» — 440 тыс. Это списки постоянных посетителей московских и петербургских торговых центров, загруженные компанией «НПО «Аналитика» в платформу myTarget для открутки рекламы в интернете. «Аналитика» — одна из нескольких компаний на рынке, которые «ловят» людей в торговых центрах, автосалонах, кафе.

Сенсоры компании предназначены для сбора и систематизации информации о смартфонах посетителей торговых центров, говорит директор «Аналитики» Михаил Могилевский. Сейчас они установлены примерно в 260 ТЦ по всей стране, в том числе в 135 торговых комплексах столицы. Датчики «ловят» физический адрес (mac-адрес) телефонов с включенной функцией поиска сети Wi-Fi, и этот адрес становится идентификатором владельца телефона. Для таргетированной рекламы собранные mac-адреса стали использовать в конце 2016 года, говорит Могилевский, уверяя, что передача mac идет в хэшированном (шифрованном) виде.

Сейчас у мобильных устройств есть защита от такой слежки: по умолчанию они выдают рандомные, то есть случайные mac-адреса. Но обойти ее несложно, объясняет топ-менеджер крупного рекламного агентства. Wi-Fi-роутер, собирающий mac, постоянно меняет названия, мимикрируя под самые распространенные — default, FreeWiFi или MT_FREE. Попадая в зону действия такой сети, телефон может «узнать» ее и отдать свой физический адрес, рассказал журналу РБК руководитель одной из компаний этого рынка.

Функция поиска Wi-Fi включена примерно на 70% всех телефонов, из этой группы в 70% случаев удается установить настоящий mac-адрес, говорит директор фирмы HotWiFi Дмитрий Степаненко (портфельный стартап Фонда развития интернет-инициатив (ФРИИ). HotWiFi начинал с услуги по обеспечению доступа к Wi-Fi для малого и среднего бизнеса, компания уже оборудовала по стране более 3 тыс. точек, в основном в кафе и ресторанах, рассказывает Степаненко. Для получения доступа к Wi-Fi пользователь авторизуется через телефон и соцсети, эта информация остается у владельца точки, в том числе для дальнейшего таргетирования рекламы в интернете. Например, HotWiFi помогла сети «Додо Пицца» собрать информацию о 200 тыс. клиентов.

Компания «Максимателеком», оператор бесплатного Wi-Fi в метро Москвы и Санкт-Петербурга, в наземном транспорте столицы и нескольких аэропортах, также собирает информацию о пользователях, но в отличие от коллег по рынку не загружает их в сторонние рекламные площадки, вроде myTarget. «Уникальное богатство, которое мы сами монетизируем», — говорил об этих данных «Деловому Петербургу» совладелец компании Алеко Крихели.

Иногда ловля клиентов больше напоминает охоту. «Максимателеком» установила в кофейне «Капучинка» у станции метро «Автозаводская» свои сенсоры и затем поймала телефонные идентификаторы всех, кто проходил мимо, указано в презентации компании. Из них был выделен список тех, кто постоянно подключается к Wi-Fi на этой станции, то есть либо живет, либо работает рядом, и они видели рекламу «Капучинки» при заходе в сеть «Максимателеком». Отследив вместе с заказчиком их дальнейшие передвижения, оператор установил: привлеченные клиенты сразу стали постоянными, совершив три покупки в течение трех недель, указано в презентации, посвященной этому кейсу.

Для того чтобы установить, дошел ли человек до магазина после просмотра таргетированной рекламы, необязательно расставлять хитрые сети из роутеров. Эффективнее продолжать слежку на кассе магазина.

На кассе

Тинькофф Банк первым из банков официально предложил заработать на своих клиентах, вспоминает руководитель крупного рекламного агентства. В 2013 году была запущен сервис «Тинькофф Таргет», через который ресторан или магазин может персонализировать предложения о кешбэке на основе анкетных данных клиента (возраст, пол, наличие автомобиля и т.д.), транзакционной информации и геопозиции. С системой работают несколько сотен активных партнеров, вся аналитика происходит внутри банка, заявил журналу РБК руководитель отдела развития программ лояльности банка Максим Филигаров.

Полноценные сторонние рекламные кампании на своих пользователях первым стал строить Сбербанк. В 2015-м он купил контрольный пакет Segmento, одной из старейших в России платформ по автоматизированной закупке рекламы в интернете на основе данных о пользователе. Segmento получает от Сбербанка cookies клиентов, пользовавшихся онлайн-услугами банка, затем мэтчит их с существующими аудиторными сегментами для показа таргетированных предложений. E-mail и телефоны не используются, подчеркивает директор компании Роман Нестер.

Самое главное — используя данные банка, Segmento может связать онлайн-активность человека с его действиями в офлайне. По такой схеме Segmento провела рекламную кампанию «Макдональдс»: получив данные о нескольких миллионах человек, посещавших фастфуд-рестораны и плативших картой Сбербанка, Segmento прокрутила им в интернете ролики нового сэндвича CreekMac. А затем еще и проанализировала, кто из видевших рекламу попробовал новинку. Таким же образом компания использовала информацию банка в рекламной кампании сети «Снежная королева» и туши от L’Oreal, следует из презентации компании. В 2017 году у Segmento было около 300 корпоративных клиентов, рекламные кампании которых были построены на сочетании онлайн-данных с обезличенными данными банка, говорит Нестер.

Сбербанк может сотрудничать с Segmento на условиях, при которых аналитика происходит на стороне финансовой организации, подчеркивают в компании. Остальные банки, если и монетизируют свои данные, то делают это на «полупубличной основе», говорит топ-менеджер крупного рекламного холдинга. «Неформально на этом рынке работают многие банки и платежные системы», — подтверждает директор крупного игрока по монетизации офлайн-данных.

Из ретейлеров на рынок данных официально вышла X5 Retail Group, в конце 2017 года объявив о сотрудничестве с платформой myTarget. Пользователи платформы Mail.Ru Group уже могут таргетировать рекламу на тех, кто покупал определенные продукты и, например, предъявлял карту лояльности. Среди доступных сегментов: владельцы посудомоечных машин (280 тыс. человек) или покупатели премиальных сигарет (1,4 млн). Корреспондент журнала РБК зарегистрировался в myTarget и отправил заявку на построение сегмента «покупатели кефира в Москве». Менеджер X5 Retail Group в ответе подтвердил готовность построить такую аудиторию. В самом холдинге X5 сообщили, что уже доступно более 1 тыс. сегментов, за последние полгода было проведено более 20 рекламных кампаний с их использованием.

Другой способ связать онлайн-таргетирование с офлайн-покупками — работа с операторами фискальных данных, которые начали активно выходить на рынок в середине 2017 года, рассказали журналу РБК топ-менеджеры нескольких рекламных агентств. В соответствии с законом такие операторы отвечают за передачу данных о покупках в ФНС и вправе монетизировать обезличенные данные. В чистом виде они представляют собой список покупок в конкретном городе, районе, магазине без привязки к конкретному клиенту. Но связать фискальные данные с человеком можно через карту лояльности, активация которой происходит с использованием мобильного телефона, говорит топ-менеджер крупной DMP-компании.

В обозримом будущем к процессу идентификации должны подключиться посредники, отслеживающие транзакции, например банки и платежные системы, добавляет Евгений Жданов. Еще одним посредником является сотовый оператор: оплатив покупку картой, клиент получает СМС от банка — в нем есть время, сумма и место покупки, что позволяет без труда смэтчить эти данные с чеком.

Телефон сам по себе является идеальным устройством для слежки: человек всегда носит его с собой, используя все чаще и для все большего количества задач.

В телефоне

Сообщение было получено вне рамок рабочего времени, «отвлекло от необходимых дел, вызвало беспокойство, раздражение, привело к формированию негативных ощущений и эмоций и дискомфортному состоянию в целом». Так описал свои моральные страдания от рекламного СМС новосибирский юрист Александр Жданов, подавая в 2016 году иск в местный суд. Эмоциональные подробности и отсутствие согласия абонента впечатлили судью, и она постановила заплатить Жданову за мучения 10 тыс. руб.

Мобильные операторы очень осторожно выходят на рынок данных из-за жестких требований закона «О связи», рассказали журналу РБК топ-менеджеры DMP-компаний. Даже на привычном рынке СМС-рекламы они исторически работают через сторонние технологические платформы, которые в первую очередь специализируются на нейтральном СМС-информировании клиентов банков или интернет-сервисов — о снятии денег или коде для восстановления пароля. Рекламные СМС для них — второстепенная услуга, рассказал журналу РБК руководитель одной из таких компаний.

Но сами платформы также не являются конечными заказчиками рассылки. В 2017 году УФАС по Москве и УФАС по Свердловской области потратили полгода, чтобы установить цепочку, по которой житель Екатеринбурга получил СМС с рекламой местного автоцентра. Схема похожа на сказку про репку: автоцентр заключил контракт с ООО «Моби-Сервис Урал», та — с компанией Instam, последняя — с родственной ей платформой «Крафт Телеком», у которой, в свою очередь, были заключены договоры с операторами связи. Из-за отсутствия согласия абонента нарушителем была признана «Крафт Телеком» (штраф — 250 тыс. руб.), следует из решения антимонопольной службы.

Адресная база для рекламной рассылки формируется двумя способами, говорит управляющий директор в регионе СНГ платформы Infobip Петр Якубович. Первый — клиент сам загружает в платформу телефоны, на которые нужно отправить сообщение. В этом случае получать согласие адресата должен заказчик, предварительной проверки не ведется, добавляет Якубович. Второй способ — список получателей формируется на основании баз сотовых операторов.

Рассылка по базе ведется тем абонентам, у которых в договоре есть пункт о согласии получать рекламные сообщения от операторов. Сейчас таких примерно 80% от общей базы, утверждает Якубович. Список получателей рекламных сообщений формируется на основании «таргетов». К примеру, у «МегаФона» их 11, указано в коммерческом предложении оператора: возраст и пол, средний размер счета за мобильную связь, операционная система телефона, интересы в интернете, конкретные адреса. Количество клиентов этой услуги растет на 20% ежемесячно, рассказали в пресс-службе оператора.

Например, компания Infobip для рекламы фитнес-центра таргетировала сообщения на мужчин и женщин в возрасте от 25 до 44 лет, проживающих или работающих в радиусе 5 км от местоположения заказчика (презентация компании). А дочерняя структура «Ростелекома» в конце 2016 года заказала через сайт госуслуг СМС-рассылку с рекламой своих офисов продаж в нескольких городах Урала абонентам МТС. В техническом задании указано: адресаты рассылки должны жить или работать в 3 км от офисов, обозначен их пол, возраст, образование, а также приведен перечень поисковых запросов в мобильном интернете — «перевести деньги», «если у банка отозвали лицензию, что будет с кредитом», «затопили соседи, как получить деньги» и даже «укус клеща страховка».

Иногда вводятся дополнительные, еще более конфиденциальные таргеты. В 2015 году московская технологическая платформа Instam отправила 250 тыс. MMS с рекламой сети ювелирных салонов, один из критериев при определении выборки — исходящие звонки в загсы и компании по организации свадеб. В своей презентации Instam предлагает также выбрать такие офлайн-атрибуты, как количество «нотификаций», то есть сообщений от служб такси или спортивных организаций.

В Instam не ответили на запрос журнала РБК, идет ли речь об информационных СМС, но сразу три игрока на рынке данных рассказали, что ряд технологических платформ по рассылке коротких сообщений предоставляет услугу по аналитике платежеспособности клиента на основе получаемых им СМС. Но используются такие сервисы не в рекламе, а в скоринге — второй по популярности сфере применения пользовательских данных. На нее, по мнению руководителя удостоверяющего сервиса IDX Светланы Беловой, приходится 30% потенциальных покупателей информации о гражданах.

Не только реклама: скоринг

В 2016 году Сбербанк провел эксперимент по использованию внешних пользовательских данных для оценки заемщиков. К пилотному проекту привлекли солидный пул поставщиков: сотовых операторов, Mail.Ru Group, технологического оператора по рассылке СМС компанию MFMS и ООО «Дабл Дата», которая специализируется на сборе информации из соцсетей и с общедоступных сайтов. Не у всех был высокий процент нахождения нужного клиента, но вместе они давали точную оценку его реального дохода, рассказывал на отраслевой конференции начальник отдела моделей оценки рисков розничных клиентов Сбербанка (репортаж с мероприятия опубликован в журнале «Директор информационной службы»).

Сбербанк выбрал для своего пилотного проекта все существующие на рынке варианты. Мобильные операторы выходили на рынок скоринга постепенно: «МегаФон» — примерно с 2014 года, МТС — с 2016-го, писал отраслевой портал Futurebanking.ru. Tele2 стал работать в этом сегменте в начале 2017-го и уже сотрудничает не только с банками, но и со страховщиками, рассказали журналу РБК в пресс-службе компании.

Весь анализ происходит на стороне оператора путем выставления так называемых скоринговых баллов. В октябре 2017 года банк «Российский капитал» заключил с «МегаФоном» контракт на предоставление справочных услуг по проверке благонадежности заемщика, следует из материалов сайта госзакупок. Согласно техзаданию, получив от заказчика номер телефона, оператор отвечает на вопросы: количество блокировок номера и их длительность, размер ежемесячных начислений, использование роуминга, частота смены телефонного устройства, район основной нагрузки на аппарат абонента в ночное и дневное время (то есть место работы и жительства). Оператор не выдает со своей стороны конкретные данные: в техническом задании заранее прописаны числовые диапазоны или варианты ответов, каждый из которых соответствует определенному баллу. Например, ежемесячный платеж от 500 руб. до 1 тыс. — это балл 3, а более 3 тыс. — 5.

Используется для оценки заемщиков и информация о поведении в интернете. DCA поставляла для «Хоум Кредита» и Альфа-банка поведенческую информацию о клиентах в интернете, аналогичная услуга есть и у CleverDATA, следует из презентаций компаний. Работает на этом рынке и Mail.Ru Group: в 2016 году холдинг заключил контракт с Почта Банком на «информационные услуги» по оценке платежеспособности клиентов, указано на сайте госзакупок. В 2017-м Mail.Ru Group подписала договор со Сбербанком стоимостью свыше полумиллиарда рублей, но какая-либо документация на портале госзакупок отсутствует. В Сбербанке сообщили, что холдинг «оказывает услуги по анализу данных», их результаты «используются для лучшего понимания потребностей клиента». В Mail.Ru Group добавили, что этот анализ осуществляется «с использованием математических моделей, построенных с помощью методов машинного обучения».

Наконец, банки работают с компаниями, специализирующимися на сборе и систематизации информации из соцсетей без установки трекеров (data mining): у крупнейшего представителя этого сегмента, компании «Дабл Дата», — 24 партнера из числа крупнейших финансовых организаций, рассказал директор компании Максим Гинжук. Скоринг — не единственное применение технологии data mining, собранные роботами данные также используются для построения клиентских портретов и даже для надзора за детьми.

Не только реклама: HR, маркетинг, медицина

Осенью 2017-го московская компания Social Data Hub, специализирующаяся на сборе информации из соцсетей, запустила сервис «Родительская опека»: всего за 150 руб. в месяц можно получать предупреждение, не начал ли ваш ребенок писать посты экстремистского содержания или не вступил ли в группы с запрещенным контентом. Сервис вызвал бурное обсуждение в соцсетях, но по состоянию на февраль 2018-го у него уже было около 30 тыс. клиентов, рассказал журналу РБК основатель Social Data Hub Артур Хачуян.

Компании активно используют пользовательские данные в маркетинге и сфере HR, говорит директор CleverDATA Денис Афанасьев. К примеру, его DMP помогала набирать продавцов для крупного ретейлера, указано в презентации компании. Сначала заказчик, имя которого не разглашается, проставил оценки 3200 действующим сотрудникам. После этого CleverDATA через свои алгоритмы построила их портреты, используя информацию из социальных сетей, от платежных систем и операторов по рассылке СМС. Полученные портреты накладывали на соискателей, обогащая информацию о них по тем же принципам, а затем получали «прогноз успешности продавца».

Около 60% компаний приходят к «Дабл Дата» за построением портрета своей аудитории, который потом используется, например, при создании новых продуктов, рассказал журналу РБК ее директор Максим Гинжук. Результат анализа похож на отчет по итогам традиционного устного опроса, но только формируется на основе данных о миллионах реальных покупателей и содержит тысячи показателей, говорит он. Среди заказчиков услуги — ретейлеры, телекоммуникационные компании, автодилеры, фарм-компании, заключает Гинжук.

Основанная выходцами из «МегаФона» компания oneFactor использует для маркетингового анализа данные мобильного трафика. Например, на основе информации о распределении нагрузки телефонов на сеть oneFactor сделала предложения для крупной фастфуд-сети по предпочтительным локациям новых торговых точек. Сейчас такие услуги занимают треть в выручке компании, говорит ее директор Роман Постников. Исторический партнер компании — «МегаФон», но oneFactor использует данные и других сотовых операторов, утверждает он.

В США пользовательские данные активно используются в медицине, в частности при составлении анамнеза, говорит Афанасьев: интернет скажет о предпочтениях и привычках пациента больше, чем он сам. В России этот сегмент рынка еще не развивается, добавляет он. «Ко мне несколько раз приходили ребята, предлагали монетизировать данные об анализах, но как?» — вспоминает топ-менеджер рекламной платформы. Страховые компании уже используют пользовательские данные для оценки реального состояния здоровья клиента: Social Data Hub готовит для них отчеты на основании информации из соцсетей, например, не увлекается ли клиент, пришедший за медстраховкой, экстремальными видами спорта.

Сфера применения пользовательских данных все время расширяется, но на рынке данных при этом происходит «отрицательная динамика», говорит директор Segmento Роман Нестер — рынок консолидируется вокруг площадок, которые собирают информацию, но не делятся ею. «Данные — квазивалюта XXI века», — объясняет такой подход Постников.

Кто владеет данными

Ни глобальные ИT-гиганты, вроде Google или Facebook, ни «Яндекс» и Mail.Ru Group не продают свои данные. Сотовые операторы, банки, ретейлеры тоже не выставляют на рынок информацию о своих пользователях. Все заинтересованы в том, чтобы использовать одну и ту же клиентскую базу на своей стороне для решения конкретной задачи заказчика, а не продавать сырую информацию, объясняет Светлана Белова.

В итоге поставщиками данных становятся те, для кого они вторичный ресурс, говорят участники рынка: интернет-магазины, владельцы счетчиков посещений, геоинформационные сервисы, службы по установке кнопок «поделиться в соцсетях» — все, кто ведет сбор cookies. Их основные покупатели — независимые DMP-компании, которые занимаются анализом данных и передачей аудиторных сегментов клиентам для открутки рекламы, скоринга или HR.

По версии отраслевого объединения IAB Russia, выпустившего в 2016 году первый обзор рынка, в России пять основных DMP-компаний: Aidata, CleverDATA ИT-холдинга «Ланит», DCA культуролога и девелопера Александра Долгина, российское подразделение французской Weborama и AmberData, входящая в Национальную медиа группу. Но совокупная доля этих и других независимых игроков на рынке не превышает 5–10%, говорят директор по маркетинговым технологиям группы компаний OMD OM Сергей Ефимов и руководитель платформы Hybrid Дмитрий Чеклов.

При этом крупные держатели данных только наращивают свои возможности, выстраивая сотрудничество по принципу общего акционера. Так, Mail.Ru Group обменивается обезличенными данными с «МегаФоном», рассказали журналу РБК два игрока рынка и подтвердил участник последней телеконференции холдинга для инвесторов, посвященной выходу отчетности по МСФО за 2017 год. «Ничего не отдают, только обогащают свои сегменты», — пересказал он слова представителей холдинга. В «МегаФоне» и Mail.Ru Group не прокомментировали эту информацию. («МегаФон», основным акционером которого является USM Group Алишера Усманова и его партнеров, владеет 15,2% Mail.Ru Group.)

Другой пример потенциально сильного конгломерата — Segmento. В конце 2016 года партнером Сбербанка в компании стал венчурный фонд АФК «Система», которая является основным владельцем МТС. Пока «Система» не монетизирует свои данные через Segmento, но такая возможность остается открытой, говорит Роман Нестер. Пилотные продукты по проектам МТС могут быть представлены уже в 2018 году, добавил президент Sistema VC Алексей Катков.

Оценить объем рынка пользовательских данных крайне сложно, говорят все собеседники журнала РБК — очень многие сделки по продаже и покупке такой информации не афишируются. Реклама является наиболее прозрачной сферой применения информации о людях, но опрошенные игроки считают, что в оборот этого сегмента нельзя включать рекламные доходы таких компаний, как «Яндекс», Mail.Ru Group и Google. «Через свои платформы они предоставляют бесплатный доступ к своим данным», — поясняет основатель платформы Auditorius Геннадий Нагорнов.

Такого же мнения придерживаются в самих ИT-гигантах. Отдельного «рынка данных» в Mail.Ru Group не видят, «есть рынок рекламы на данных», подчеркивает первый замдиректора холдинга Дмитрий Сергеев. «Яндекс» не закладывает стоимость данных в стоимость контракта, заявили в пресс-службе компании.

В этих условиях остается только оборот маленьких независимых игроков. В 2016 году выручка поставщиков данных на рынок интернет-рекламы составила лишь 180 млн руб., подсчитали ранее в IAB Russia. По мнению Нагорнова, емкость этого рынка не превышает 200 млн руб., примерно та же оценка у Ефимова. Глава лаборатории данных Dentsu Aegis Network Russia Михаил Шкляев называет цифры в 300–400 млн руб.

Еще более приблизительными получаются денежные оценки других сфер. Объем скоринговых и маркетинговых услуг в 2017 году достиг 3 млрд руб., полагает Шкляев. Отдельно скоринговый рынок мог вырасти до 1 млрд руб., говорит исполнительный директор Skolkovo Ventures Дмитрий Щиголев. Наконец, по мнению управляющего партнера «TMT Консалтинг» Константина Анкилова, операторы связи заработали в 2017 году на Big Data менее 1 млрд руб.

Потенциал рынка выглядит гораздо серьезнее. В перспективе пяти-семи лет объем маркетинговых услуг на основе точных знаний о гражданах составит около $500 млн, рынок скоринга вырастет до 5 млрд руб., заказы государственного сектора в этой сфере могут составить $500 млн, подсчитали ранее в Skolkovo Ventures. В IDX потенциал рынка оценили в 30 млрд руб. — если бы у нас был правильный или хотя бы сравнимый с европейским правовой ландшафт, отметила директор компании Светлана Белова. Пока же рынок фактически работает в серой юридической зоне, заключать прозрачные сделки и делать точные подсчеты затруднительно.

Законно ли все это

Все компании, работающие на этом рынке, при любом удобном случае подчеркивают, что работа с персональными данным ведется в «обезличенном» и «безопасном» виде. Но в Роскомнадзоре не признают термина «обезличенные персональные данные» по отношению к сookies, информации о перемещениях гражданина на основе геолокации, данных о поведении на страницах интернет-магазинов.

Эту информацию следует рассматривать как «пользовательские данные», косвенно относящиеся к человеку, объяснил позицию ведомства начальник управления по защите прав субъектов персональных данных Роскомнадзора Юрий Контемиров. А хэширование — основа основ при передаче данных от поставщика к DMP-компании — не может считаться способом «обезличивания» информации, так как относится к криптографическим средствам защиты информации, добавил он.

В Роскомнадзоре подчеркивают, что согласие пользователя на обработку его данных можно получать в любой форме, в том числе просто включив такой пункт в пользовательское соглашение сайта (если иное не предусмотрено законом). Нельзя лишь нарушать принцип целеполагания, продолжает Контемиров: персональные данные должны использоваться для тех целей, для которых собраны.

Правда, последний принцип не соблюдается постоянно: проданные интернет-магазинами cookies применяются, например, для скоринга. Российское законодательство в области персональных данных зачастую сложно соблюдать в том виде, в котором его трактует Роскомнадзор, замечает старший менеджер по оказанию юридических услуг Deloitte CIS Александр Тюльканов. Собрав и истолковав все законы и подзаконные акты, можно отладить систему работы компании на этом рынке, но в итоге «казуистика» может закончиться конфликтом с регулятором, уверен управляющий партнер петербургского офиса Dentons Виктор Наумов. «Все это шито белыми нитками, и Роскомнадзор может прихлопнуть кого угодно», — заключает Белова.

В Роскомнадзоре, однако, обещают не проводить широкомасштабные проверки в данной сфере. Задача ведомства — просвещать и предостерегать, и ситуация меняется: игроки рынка настроены на то, чтобы работать в существующем правовом поле, уверен Контемиров. Последнее громкое решение ведомства — запрет собирать информацию со всех соцсетей, Avito.ru и Auto.ru, полученный «Национальным бюро кредитных историй» в 2016 году.

В конце 2017 года правительство России утвердило план модернизации нормативной базы в рамках программы «Цифровая экономика». По плану к маю 2018-го должен быть готов законопроект по регулированию доступа к общедоступным данным, к августу — об уточнении порядка обезличивания данных и получения согласия пользователей. Окончательное принятие документов отнесено на декабрь 2018-го и май 2019-го соответственно.

Подготовкой предложений занимаются структуры, указанные в правительственном документе в качестве соисполнителей: ФРИИ и центр компетенций фонда «Сколково». В феврале рабочие группы ФРИИ и «Сколково» даже собирались вместе, чтобы скоординировать работу. Внести изменения в закон «О персональных данных» намерен и Медиа-коммуникационный союз, который разрабатывает документ под названием «Информационный кодекс».

Обновление законодательства необходимо, чтобы вывести торговлю данными из серой зоны, говорит замдиректора ФРИИ Сергей Алимбеков. Сейчас не так важно, какая именно концепция будет принята, — рынку необходимо любое регулирование, отвечающее на основные вопросы его игроков, считает Евгений Жданов.

По мнению собственника компании DCA Александра Долгина, время для нормотворчества еще не наступило: «Невозможно прописать нормы по отношению к тому, что находится в динамичном изменении. Большие данные быстро меняются, и пока непонятно, от чего нужно защищаться».

Большие игроки рынка данных должны сами регулировать свою работу через СРО, говорит Дмитрий Сергеев из Mail.Ru Group. Идея создания Ассоциации больших данных обсуждается крупными компаниями с 2017 года, сейчас идут «внутренние консультации», отмечают в Mail.Ru Group. В «Яндексе», чьи представители принимают участие в рабочих группах, предлагают ввести «кодекс добросовестных практик» для компаний рынка данных и выступают за «системную просветительскую работу, которая закрепит в сознании разных людей базовые понятия безопасного поведения в новой среде».

Сохранить конфиденциальность уже невозможно, считает глава одной из компаний, занимающихся data mining. «Я стараюсь не оставлять лишних следов в Сети, пиццу заказываю в соседний дом, не регистрируюсь в GetContact. У меня есть телефон на случай, условно говоря, атомной войны, его знают 50 моих друзей, и на него все равно звонят спамеры».