Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Конечно, в этом деле присутствует фактор уникальности. Любой набор данных может включать данные известных лиц, которые в некотором смысле являются аномальными и допускают простую идентификацию, но это не означает, что большинство людей могут быть так же легко идентифицированы. В нашем примере Уэлд был публичной фигурой, и о нем было много чего известно. Кроме того, его повторная идентификация зависела от точности информации в избирательном бюллетене. Дэниел Барт-Джонс детально изучил этот случай и показал его исключительность[161]. Тем не менее это событие вызвало определенную тревогу на правительственном уровне и недавние изменения в законодательстве затруднили такую повторную идентификацию.

Другой известный случай касается данных веб-поиска, открыто опубликованных на портале поставщиком онлайн-услуг AOL в 2006 г. Чтобы сохранить анонимность, AOL удалил IP-адреса и никнеймы пользователей, осуществлявших поисковые запросы, заменяя их все тем же случайно выбранным идентификатором. В данном случае анонимность была взломана не аспирантом, а двумя журналистами, которые быстро сопоставили идентификатор 4417749 с Тельмой Арнольд, вдовой, проживающей в Лилберне, штат Джорджия. Журналисты сделали это, сузив поиск благодаря информации, содержавшейся в ее поисковых запросах: она искала медицинские недуги людей с фамилией Арнольд, информацию о собаках и т. д.

Еще один печально известный случай – так называемый «приз от Netflix» – произошел в 2006 г. База данных Netflix содержала сравнительные рейтинги предпочтений фильмов для полумиллиона подписчиков сервиса. Компанией был объявлен конкурс с призовым фондом в размере $1 млн за разработку алгоритма, который бы на 10 % точнее существующего рекомендовал фильмы подписчикам. Вся личная информация, как и положено, была удалена, а идентификаторы заменены случайными кодами. На этот раз защиту взломали два исследователя из Техасского университета, Арвинд Нараянан и Виталий Шматиков. Вот их заявление: «Мы показываем, что злоумышленник, который знает хоть что-то об отдельном подписчике, может легко идентифицировать запись этого подписчика в наборе данных. Используя базу данных фильмов в интернете (IMDb) в качестве источника базовых знаний, мы успешно определили записи известных пользователей Netflix, выявив их очевидные политические предпочтения и другую конфиденциальную информацию»[162].

Все вышеизложенное – это случаи, произошедшие относительно давно. В результате их были приняты законы, направленные на то, чтобы сделать наборы данных более безопасными и наказывать за попытки взломать анонимность. Но печальная правда заключается в том, что данные должны быть либо абсолютно темными и, следовательно, бесполезными, либо иметь для доступа хотя бы минимальную щель, через которую всегда может просочиться свет.

<p>Сбор данных в темноте</p>

Как мы видим, данные, идентифицирующие людей, можно анонимизировать в случаях, когда одни наборы данных связываются с другими, но есть возможность пойти еще дальше. Можно делать данные темными по мере их сбора и использования в расчетах, чтобы их вообще никто никогда не видел, но они по-прежнему были бы доступными для анализа. Ниже приведены некоторые из способов, которыми это можно сделать.

Прежде всего это рандомизированный ответ – хорошо известная стратегия сбора конфиденциальной личной информации, такой как данные, касающиеся сексуального или нечестного поведения. Для примера предположим, что мы хотим знать, какая часть населения хотя бы раз в жизни совершала кражу. Прямой вопрос на эту тему в лучшем случае приведет к искаженным ответам, поскольку очевидно, что люди склонны лгать и отрицать. Вместо этого мы просим каждого человека подбросить монету, которую видит только он. Люди проинструктированы, что, если выпадает орел, они должны правдиво ответить «да» или «нет» на вопрос «Совершали ли вы когда-нибудь кражу?», а если выпадает решка, то они должны просто ответить «да». Теперь для любого человека положительный ответ означает, что мы не будем знать, украл ли он что-то на самом деле или это монета упала решкой вверх. Но мы узнаем нечто большее. Поскольку вероятность того, что выпадет орел, равна 1/2, мы будем знать, что общее число ответивших «нет» – только половина тех, кто действительно ничего не крал. Так что удвоение этого числа скажет нам о том, сколько человек действительно не совершали краж. Вычитая это значение из общего числа, мы узнаем число тех, кому доводилось красть.

Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал вариант этой идеи, чтобы исследовать честность в 15 странах[163]. Он просил людей подбросить монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал орел. Если доля утверждающих это больше половины, то, значит, люди лгут – и именно это Хью-Джонс использовал в качестве меры честности.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика