Темная сторона открытости: почему не все данные стоит раскрывать
Гетто и самосуд
Разговор о «больших данных» почти всегда сводится к обсуждению их пользы для общества и бизнеса. При этом на удивление мало информации о том, что «большие данные» часто вредят потребителю: они не уменьшают, а увеличивают информационное неравенство.
Возьмем, к примеру, данные правоохранительных органов и криминальную статистику. Имеем ли мы право знать, какие преступления происходят на той или иной улице, в том или ином районе? Жители, как правило, говорят, что да, имеют, а руководители уже на уровне муниципалитетов задаются вопросом, не спровоцирует ли это панику или социальную напряженность, не усилит ли публикация данных о качестве жизни неравенство и не подтолкнет ли к формированию гетто.
Подход может быть разным. В Великобритании на сайте police.uk публикуются данные по каждому преступлению. При этом есть ряд жестких ограничений. Самое главное, не публикуются точные геоданные о месте совершения преступлений, детализация идет только в масштабе улицы. Но можно выбрать на карте конкретную улицу или район и увидеть количество совершенных там преступлений, а также узнать об их типе и количестве пострадавших.
Полиция США, напротив, публикует подробную информацию о каждом преступлении с детализацией до конкретного адреса, а также указывает тип происшествия, число погибших или раненых. Есть несколько коммерческих проектов, таких как CrimeMapping.com и CrimeReports.com, которые эту информацию используют для оказания услуг по уведомлению граждан о новых преступлениях и помощи в выборе места жительства и работы. Популярна она и у риелторских компаний. Служба такси Uber, например, анализирует получаемые заказы, просчитывает корреляцию с уровнем преступности по районам и с учетом этого составляет маршруты движения и определяет места стоянки такси.
В других странах, например в Германии, криминальная статистика до сих пор не публикуется с такой детализацией. Причина не в риске появления гетто или паники среди населения (в развитых странах все и так знают, где гетто есть, а где его нет). Дело в том, что такую информацию активно используют преступники для поиска каналов сбыта наркотиков и оружия.
Есть и другие риски. Например, полицейский департамент Нью-Йорка открыто пополняет базу данных людей, совершивших преступления, связанные с сексуальным насилием. В базу Sex Offender Registry вносятся фотография насильника, фамилия и имя, основные параметры, раса и адрес фактического проживания. Причины, по которым такая информация должна быть в открытом доступе, понятны, но есть и серьезные доводы против ее разглашения. К примеру, риск самосуда. Представьте себе, что в России велась бы открытая база данных педофилов с указанием их мест проживания. Многие ли из них после этого проживут долго?
Повторная идентификация
Другая сфера, для которой актуальны вопросы использования открытых данных, — это образование. Много лет эксперты призывают Министерство образования, Мособрнадзор и региональные департаменты образования публиковать данные о среднем балле ЕГЭ по школам. Сейчас это один из немногих критериев оценки качества школьного образования. К ЕГЭ много претензий, но тем не менее есть основания считать, что в хороших школах оценки ЕГЭ гораздо выше среднего показателя. Пока Министерство образования не готово публиковать такие данные.
Для сравнения, в 2012 году в Великобритании была опубликована база всех учеников Великобритании (National Pupil Database). Без имен и фамилий, но с указанием школ, районов, уровня успеваемости и многого другого. Публикацию этой базы лоббировало огромное количество коммерческих компаний, дата-аналитиков, которые на ее основе оценивают качество школ в стране. Однако ряд некоммерческих организаций, к примеру Open Rights Group, высказывал опасения, что при наличии некоторых навыков программирования можно идентифицировать конкретного ученика. Этот процесс называется повторная идентификация (reidentification).
В российском законе о персональных данных такого понятия нет. Но что делать в ситуации, когда по публикуемым государством анонимным данным можно вычислить конкретного человека? Простой пример. Предположим, в реестре учеников не будет их имен, но будет номер телефона и успеваемость по каждому ученику. Через номер телефона, используя социальные сети и другие источники, можно с легкостью идентифицировать конкретного человека. Идентификация и сбор данных по номеру телефона активно используются бизнесом, например при выдаче банковских кредитов. По телефону и адресу электронной почты человека можно легко найти в соцсетях, которые активно используются кредиторами для скоринга. В презентации одной из скоринговых компаний было указано, что в своих оценках надежности заемщика компания опирается в том числе на количество музыки на его стене «ВКонтакте»: чем больше музыки у потенциального заемщика, тем ниже будет его оценка.
В нашей стране вопросы повторной идентификации на официальном уровне пока не обсуждаются.
Сканы как защита
Если госорган заключает контракт с индивидуальным предпринимателем или физлицом, он обязан опубликовать его персональные данные. Этого требует федеральный закон о госзакупках, устанавливающий исключение из закона о персональных данных. Фактически это означает следующее: если вы вступили в финансовые отношения с государством, особенно если вы при этом ИП, то всегда есть вероятность, что ваши данные будут опубликованы в открытом доступе и вы их не сможете удалить никогда.
Парадоксальным образом одним из главных барьеров приватности и защитой от подобного раскрытия информации является то, что большинство госдокументов до сих пор публикуется в отсканированном виде. Для тех, кто работает с данными, это проклятие, а для граждан главная защита, потому что пока еще поисковые системы не научились автоматически извлекать информацию из документов в формате PDF, TIFF и т.п.
Это касается не только госзакупок. На многих других государственных информационных системах, например портале torgi.gov.ru, в последние годы публикуют личную информацию о победителях конкурсов, которую далеко не каждый гражданин готов опубликовать самостоятельно.
Эта информация чувствительна для обычных людей, но не для ведомств или конкретных чиновников. Кстати, последние не спешат раскрывать информацию о себе. В частности, получить декларации о доходах от большинства чиновников в машиночитаемом виде очень трудно. Они все публикуются в отсканированном виде, причем зачастую это делается сознательно, чтобы с ними было максимально неудобно работать.
Сейчас публикация договоров в виде сканов — единственный барьер, ограничивающий возможности поиска информации. Но российские и зарубежные компании активно занимаются разработкой софта для распознавания текста. Когда поиск по этим документам станет возможным, люди тут же начнут искать данные друг друга и обнаружат немало интересного.
Системный подход
В вопросе информационной открытости есть две стороны. С одной стороны, «панамские бумаги» убеждают нас в ее пользе: мы получаем больше информации о лицах, принимающих решения, и видим случаи масштабной коррупции. Представители гражданского общества начинают кооперироваться в стремлении к прозрачности, например для обработки «панамских» данных и проведения расследований (в России большую работу проделали журналисты «Новой газеты» и РБК, а центр «Трансперенси Интернешнл — Россия» провел «офшоротон» с привлечением полусотни волонтеров).
С другой стороны, каждый из нас по отдельности беззащитен перед корпорациями с их огромными техническими ресурсами, позволяющими обрабатывать наши данные. Это и есть цифровое неравенство: мы знаем о банках и их владельцах очень ограниченный объем официальной информации, которую требует публиковать ЦБ. Банки могут узнать о нас значительно больше, изучая наши соцсети и следы в интернете. Корпорации, основанные на данных (data corporations), знают многое о наших потребительских предпочтениях и начинают манипулировать нами, подкидывая нужную рекламу. По косвенным признакам о нас можно узнать больше, чем мы бы сами хотели рассказывать окружающим. Например, согласно одному из исследований, по уровню заряда телефона в течение дня с точностью 90% можно определить вероисповедание его владельца. В России эта проблема пока не осознается ни обществом, ни государством, которое, несмотря на закрытость в определенных вопросах, выкладывает в открытый доступ очень много данных.
Если не вести общественную дискуссию, не заниматься всесторонним и максимально широким обсуждением вопроса, то количество проблем, связанных с раскрытием или нераскрытием данных, будет только расти. И люди, владеющие технологиями, смогут узнавать о нас гораздо больше, чем мы бы хотели.