В таких случаях можно использовать так называемую
Формальные определения анонимизации, используемые статистическими службами, обычно содержат пункт, в котором говорится, что процесс анонимизации должен «защищать людей от повторной идентификации любыми разумными средствами». Выражение «разумные средства» возникает здесь оттого, что идеальная анонимность редко может быть гарантирована, поскольку одни наборы данных могут быть связаны с другими. В главе 3 мы уже видели, что связывание наборов данных имеет огромный потенциал для улучшения жизни людей. Например, связь моделей закупки продуктов питания с данными о здоровье даст ценную для профилактики болезней информацию. Связывание данных о школьном образовании с данными по занятости и доходам из налоговых органов предоставит чрезвычайно полезную информацию для разработки государственной политики. Подобное связывание наборов данных не является чем-то гипотетическим, оно уже проводится широким кругом организаций по всему миру. Но подобные проекты могут быть успешными только в том случае, если люди, данные которых включены в базы данных, будут уверены, что их частная жизнь и конфиденциальность не нарушены. Британская сеть исследования административных данных (ADRN) преодолела риски конфиденциальности, используя метод «доверенной третьей стороны» для связывания данных. Этот метод означает, что ни один конкретный владелец данных не имеет ни идентификаторов, ни связанных данных[160]. Для двух наборов данных система работает следующим образом:
● Каждый менеджер баз данных создает уникальные идентификаторы для каждой записи в своем наборе данных.
● Эти идентификаторы и связанная с ними идентифицирующая информация (например, имена) отправляются «доверенной третьей стороне» по защищенным ссылкам, каждая из которых соответствует конкретному идентификатору.
● Для каждой записи создается связывающий идентификатор.
● Файлы, содержащие связывающий идентификатор и уникальные идентификаторы для каждой записи, отправляются обратно владельцам базы данных.
● Владельцы базы данных добавляют связывающий идентификатор к записям в своем наборе данных.
● Наконец, каждый владелец базы данных извлекает идентификационную информацию (например, имена) и отправляет записи и их связывающие идентификаторы исследователю, который может связывать наборы данных, используя связывающий идентификатор, не зная самих идентификационных данных.
Этот процесс кажется несколько сложным, но на деле он очень эффективен для сокрытия идентификаторов при связывании записей из двух наборов данных. Хотя такие проекты по связыванию данных могут быть чрезвычайно ценными для общества, они всегда несут риски нежелательной идентификации, которые могут быть значительно увеличены, если данные будут связаны с внешними наборами данных. (Это было невозможно в случае ADRN, поскольку весь анализ проводился в защищенных средах без доступа к другим источникам данных.) Эта дилемма хорошо иллюстрируется одним известным случаем.
В 1997 г. Комиссия по страхованию штата Массачусетс (GIC) опубликовала больничные данные для исследователей, чтобы они могли разработать улучшенные стратегии здравоохранения. Тогдашний губернатор Массачусетса Уильям Уэлд заверил жителей штата в том, что их конфиденциальность защищена, заявив, что GIC удалила личные идентификаторы из данных.
Возможность связывания данных, однако, не была рассмотрена. Латания Суини была в то время аспирантом в Массачусетском технологическом институте, где занималась «вычислительным контролем идентификации» – отраслью информатики, связанной с инструментами и методами сохранения данных в темноте. Суини задалась вопросом, возможно ли, вопреки утверждению Уэлда, идентифицировать людей по данным GIC. В частности, она решила поискать данные самого Уэлда. Общеизвестно, что Уэлд живет в Кеймбридже, штат Массачусетс, в котором всего семь почтовых индексов и 54 000 жителей. Суини сопоставила эту информацию с данными в избирательном бюллетене, которые можно было купить всего за $20. Затем, используя другую общедоступную информацию об Уэлде – дату его рождения, пол и т. д., она смогла сопоставить ее с больничными записями и таким образом идентифицировать медицинскую запись Уэлда. В довершение всего Суини послала ему копии найденных записей.