Конечно, в этом деле присутствует фактор уникальности. Любой набор данных может включать данные известных лиц, которые в некотором смысле являются аномальными и допускают простую идентификацию, но это не означает, что большинство людей могут быть так же легко идентифицированы. В нашем примере Уэлд был публичной фигурой, и о нем было много чего известно. Кроме того, его повторная идентификация зависела от точности информации в избирательном бюллетене. Дэниел Барт-Джонс детально изучил этот случай и показал его исключительность[161]. Тем не менее это событие вызвало определенную тревогу на правительственном уровне и недавние изменения в законодательстве затруднили такую повторную идентификацию.
Другой известный случай касается данных веб-поиска, открыто опубликованных на портале поставщиком онлайн-услуг AOL в 2006 г. Чтобы сохранить анонимность, AOL удалил IP-адреса и никнеймы пользователей, осуществлявших поисковые запросы, заменяя их все тем же случайно выбранным идентификатором. В данном случае анонимность была взломана не аспирантом, а двумя журналистами, которые быстро сопоставили идентификатор 4417749 с Тельмой Арнольд, вдовой, проживающей в Лилберне, штат Джорджия. Журналисты сделали это, сузив поиск благодаря информации, содержавшейся в ее поисковых запросах: она искала медицинские недуги людей с фамилией Арнольд, информацию о собаках и т. д.
Еще один печально известный случай – так называемый «приз от Netflix» – произошел в 2006 г. База данных Netflix содержала сравнительные рейтинги предпочтений фильмов для полумиллиона подписчиков сервиса. Компанией был объявлен конкурс с призовым фондом в размере $1 млн за разработку алгоритма, который бы на 10 % точнее существующего рекомендовал фильмы подписчикам. Вся личная информация, как и положено, была удалена, а идентификаторы заменены случайными кодами. На этот раз защиту взломали два исследователя из Техасского университета, Арвинд Нараянан и Виталий Шматиков. Вот их заявление: «Мы показываем, что злоумышленник, который знает хоть что-то об отдельном подписчике, может легко идентифицировать запись этого подписчика в наборе данных. Используя базу данных фильмов в интернете (IMDb) в качестве источника базовых знаний, мы успешно определили записи известных пользователей Netflix, выявив их очевидные политические предпочтения и другую конфиденциальную информацию»[162].
Все вышеизложенное – это случаи, произошедшие относительно давно. В результате их были приняты законы, направленные на то, чтобы сделать наборы данных более безопасными и наказывать за попытки взломать анонимность. Но печальная правда заключается в том, что данные должны быть либо абсолютно темными и, следовательно, бесполезными, либо иметь для доступа хотя бы минимальную щель, через которую всегда может просочиться свет.
Сбор данных в темноте
Как мы видим, данные, идентифицирующие людей, можно анонимизировать в случаях, когда одни наборы данных связываются с другими, но есть возможность пойти еще дальше. Можно делать данные темными по мере их сбора и использования в расчетах, чтобы их вообще никто никогда не видел, но они по-прежнему были бы доступными для анализа. Ниже приведены некоторые из способов, которыми это можно сделать.
Прежде всего это
Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал вариант этой идеи, чтобы исследовать честность в 15 странах[163]. Он просил людей подбросить монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал орел. Если доля утверждающих это больше половины, то, значит, люди лгут – и именно это Хью-Джонс использовал в качестве меры честности.