Общественные, социальные и этические проблемы, связанные с криптографией, могут быть очень серьезными. С одной стороны, шифрование обеспечивает безопасность законных транзакций, но с другой – оно используется и для защиты незаконных транзакций криминального или террористического характера. Apple Inc. получила ряд запросов от судов США с требованием раскрыть информацию на заблокированных iPhone. В одном случае ФБР попросило Apple разблокировать телефон, принадлежащий одному из преступников, устроивших теракт в Сан-Бернардино, штат Калифорния, в декабре 2015 г., в результате которого погибли 14 человек. Но такой запрос ставит нас перед серьезной проблемой: в какой степени личная конфиденциальность должна быть священной. В этом конкретном случае Apple отказалась выполнять запрос, было назначено слушание, но до того, как оно состоялось, ФБР нашло некое третье лицо, которое имело доступ к телефону и разблокировало его. Запрос был отозван, но история о конфиденциальности, секретности и доступе к темным данным на мобильных телефонах далека от своего завершения.
Национальные статистические службы являются государственными органами, которые собирают и сопоставляют данные по всему населению страны, а затем анализируют с целью разработки на их основе эффективной социальной и государственной политики. Такие органы должны хранить личные данные в секрете, допуская публикацию лишь статистических сводок. Например, вы ожидаете, что национальная статистическая служба вашей страны не будет разглашать размер вашей зарплаты или историю болезни, сообщая только о распределении зарплат и количестве людей, у которых диагностированы те или иные заболевания. Такая политика может привести к деликатным проблемам конфиденциальности. В частности, если выдается информация об относительно небольшой группе людей, возможно, окажется несложным идентифицировать лиц в этой группе. Например, публикация информации о мужчинах в возрасте от 50 до 55 лет с указанием почтового индекса, в зоне которого они проживают, может существенно сузить поиск. В самом худшем случае может быть всего один человек, который отвечает всем условиям, определяющим группу.
Из-за этих и подобных им деликатных вопросов национальные статистические службы и другие органы государственной власти разработали инструменты для сохранения данных в темноте, чтобы можно было распространять информацию о населении без нанесения ущерба конфиденциальности отдельно взятого человека. Например, если перекрестная классификация критериев выдает небольшой список людей (скажем, тех, кто живет в определенном городе и зарабатывает более £1 млн в год), то эту ячейку перекрестной классификации можно объединить с соседними ячейками (с теми, кто живет в близлежащих городах или зарабатывает более £100 000 в год).
Другая стратегия, которую используют статистические службы для сокрытия данных, состоит в их искажении случайным образом. Например, небольшое число, выбранное случайным образом, может добавляться к каждому значению таблицы так, чтобы ее можно было опубликовать без разглашения точных чисел, но сохранить общую картину. Существуют способы сохранения требуемых аспектов (например, общих средних значений, распределений чисел в разных группах) точными, хотя все составляющие совокупность числа изменяются.
Третья стратегия – моделирование распределения и характеристик истинных данных с последующим использованием модели для генерации синтетических данных с теми же свойствами, подобно тому, как это происходит при симуляции. Например, мы можем рассчитать средний возраст и разброс по возрастам в популяции, а также общую структуру распределения по возрасту, а затем сгенерировать искусственные данные, которые имеют точно такую же структуру среднего, разброса и распределения. Таким образом, реальные данные полностью заменяются, но (до определенного момента) сводки, сгенерированные из синтетических данных, совпадают с реальными.
Данные можно также