Многообещающий метод сбора данных – дифференцированная конфиденциальность. По сути, это означает введение в базу данных достаточного количества математического шума, чтобы можно было успешно замаскировать каждого человека так, что нельзя будет сделать каких-либо конкретных выводов о конкретной персоне, но при этом сохранится точность результатов статистического анализа. Это может показаться сложным, но вот простой пример, иллюстрирующий эту идею. Предположим, вы хотите узнать, сколько людей в Лондоне проголосовали за выход Великобритании из ЕС. При обычном сборе данных вы звоните по нескольким тысячам телефонных номеров и спрашиваете каждого человека, как он голосовал. Даже если вы не фиксируете имена, но собираете номера телефонов и то, как люди голосовали, этих избирателей можно будет легко идентифицировать и их право на тайное голосование окажется под угрозой. Если вы собираете данные с использованием дифференциальной конфиденциальности, то вы также набираете несколько тысяч телефонных номеров, но вместо того, чтобы напрямую спрашивать, как люди голосовали, вы просите их подбросить монетку. Если монета выпадает орлом, люди должны сказать вам, как они проголосовали. Если выпадет решка, они должны снова подбросить монету, и если на этот раз выпадет орел, они должны сказать вам правду, а если решка – солгать. Важно отметить, что люди никогда не должны рассказывать вам, что выпало. Поскольку вы контролировали, как часто люди лгали вам, вы знаете, что примерно четверть ваших результатов неверны (ложные), и вы можете статистически скорректировать это. В результате получается база данных, которая почти так же точна, как и обычная, но не содержит личных данных, потому что только респонденты знают, что выпало. У вас нет возможности узнать, кто именно голосовал за выход Великобритании из ЕС, но вы можете приблизительно знать, сколько людей за него проголосовало. При этом каждый участник пользуется «правдоподобным отрицанием»: он может заявить, что не голосовал за выход Великобритании из ЕС, и никто не сможет доказать обратное (по крайней мере, на основе этой базы данных)[272].
Конечно, не все виды данных могут быть собраны с использованием дифференцированной конфиденциальности, и этот метод требует доработки, чтобы организации могли эффективно его реализовывать. Тем не менее этот пример показывает, что существуют методы анализа данных, при которых не нужно подвергать опасности конфиденциальность людей. Гомоморфное шифрование и федеративное обучение – два других метода, которые стоит изучить. Нам следует больше инвестировать в разработку инструментов обеспечения конфиденциальности, а не вкладываться только в методы использования конфиденциальности для получения прибыли, удобства или эффективности.
Если нет иной альтернативы, кроме сбора персональных данных, их следует собирать только в том случае, когда лицо осмысленно и свободно дает согласие на такой сбор, указан способ использования этих данных и планы по их удалению (подробнее об этом ниже). Однако ограничения сбора персональных данных недостаточно, поскольку конфиденциальная информация может быть получена не только с помощью сбора данных, но и путем гипотез.
Остановить гипотетическое определение данных в закрытом режиме
Организации, жаждущие узнать о нас больше, могут выйти за рамки, которые мы для них установили, путем гипотез, а не сбора конфиденциальной информации о нас. Цифровые следы, которые мы оставляем после взаимодействия с технологиями, обычно рассматриваются как образцы поведения, которые затем используются, чтобы делать о нас выводы.
Количество теорий о том, что можно узнать о нас по нашим данным, в последние несколько лет показывает стремительный рост. То, как люди используют смартфоны, можно положить в основу для прогнозирования результатов тестов на когнитивные способности, такие как память и концентрация. Проблемы с памятью можно определить по тому, насколько быстро люди набирают текст на телефоне, какие ошибки они делают и насколько быстро они прокручивают свой список контактов[273]. Лайки в