Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

В таких случаях можно использовать так называемую псевдонимизацию. Вместо того, чтобы просто уничтожать идентифицирующую информацию, ее заменяют кодом. Например, имена могут быть заменены случайно выбранным целым числом (замена имени Джеймс Бонд на число 007 не будет случайной, а вот имени Дэвид Хэнд на число 665347 – вполне). Если где-то хранится файл, который сопоставляет идентификаторы с кодами, то в случае необходимости всегда может быть найдена личность носителя кода.

Формальные определения анонимизации, используемые статистическими службами, обычно содержат пункт, в котором говорится, что процесс анонимизации должен «защищать людей от повторной идентификации любыми разумными средствами». Выражение «разумные средства» возникает здесь оттого, что идеальная анонимность редко может быть гарантирована, поскольку одни наборы данных могут быть связаны с другими. В главе 3 мы уже видели, что связывание наборов данных имеет огромный потенциал для улучшения жизни людей. Например, связь моделей закупки продуктов питания с данными о здоровье даст ценную для профилактики болезней информацию. Связывание данных о школьном образовании с данными по занятости и доходам из налоговых органов предоставит чрезвычайно полезную информацию для разработки государственной политики. Подобное связывание наборов данных не является чем-то гипотетическим, оно уже проводится широким кругом организаций по всему миру. Но подобные проекты могут быть успешными только в том случае, если люди, данные которых включены в базы данных, будут уверены, что их частная жизнь и конфиденциальность не нарушены. Британская сеть исследования административных данных (ADRN) преодолела риски конфиденциальности, используя метод «доверенной третьей стороны» для связывания данных. Этот метод означает, что ни один конкретный владелец данных не имеет ни идентификаторов, ни связанных данных[160]. Для двух наборов данных система работает следующим образом:

● Каждый менеджер баз данных создает уникальные идентификаторы для каждой записи в своем наборе данных.

● Эти идентификаторы и связанная с ними идентифицирующая информация (например, имена) отправляются «доверенной третьей стороне» по защищенным ссылкам, каждая из которых соответствует конкретному идентификатору.

● Для каждой записи создается связывающий идентификатор.

● Файлы, содержащие связывающий идентификатор и уникальные идентификаторы для каждой записи, отправляются обратно владельцам базы данных.

● Владельцы базы данных добавляют связывающий идентификатор к записям в своем наборе данных.

● Наконец, каждый владелец базы данных извлекает идентификационную информацию (например, имена) и отправляет записи и их связывающие идентификаторы исследователю, который может связывать наборы данных, используя связывающий идентификатор, не зная самих идентификационных данных.

Этот процесс кажется несколько сложным, но на деле он очень эффективен для сокрытия идентификаторов при связывании записей из двух наборов данных. Хотя такие проекты по связыванию данных могут быть чрезвычайно ценными для общества, они всегда несут риски нежелательной идентификации, которые могут быть значительно увеличены, если данные будут связаны с внешними наборами данных. (Это было невозможно в случае ADRN, поскольку весь анализ проводился в защищенных средах без доступа к другим источникам данных.) Эта дилемма хорошо иллюстрируется одним известным случаем.

В 1997 г. Комиссия по страхованию штата Массачусетс (GIC) опубликовала больничные данные для исследователей, чтобы они могли разработать улучшенные стратегии здравоохранения. Тогдашний губернатор Массачусетса Уильям Уэлд заверил жителей штата в том, что их конфиденциальность защищена, заявив, что GIC удалила личные идентификаторы из данных.

Возможность связывания данных, однако, не была рассмотрена. Латания Суини была в то время аспирантом в Массачусетском технологическом институте, где занималась «вычислительным контролем идентификации» – отраслью информатики, связанной с инструментами и методами сохранения данных в темноте. Суини задалась вопросом, возможно ли, вопреки утверждению Уэлда, идентифицировать людей по данным GIC. В частности, она решила поискать данные самого Уэлда. Общеизвестно, что Уэлд живет в Кеймбридже, штат Массачусетс, в котором всего семь почтовых индексов и 54 000 жителей. Суини сопоставила эту информацию с данными в избирательном бюллетене, которые можно было купить всего за $20. Затем, используя другую общедоступную информацию об Уэлде – дату его рождения, пол и т. д., она смогла сопоставить ее с больничными записями и таким образом идентифицировать медицинскую запись Уэлда. В довершение всего Суини послала ему копии найденных записей.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика