Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Общественные, социальные и этические проблемы, связанные с криптографией, могут быть очень серьезными. С одной стороны, шифрование обеспечивает безопасность законных транзакций, но с другой – оно используется и для защиты незаконных транзакций криминального или террористического характера. Apple Inc. получила ряд запросов от судов США с требованием раскрыть информацию на заблокированных iPhone. В одном случае ФБР попросило Apple разблокировать телефон, принадлежащий одному из преступников, устроивших теракт в Сан-Бернардино, штат Калифорния, в декабре 2015 г., в результате которого погибли 14 человек. Но такой запрос ставит нас перед серьезной проблемой: в какой степени личная конфиденциальность должна быть священной. В этом конкретном случае Apple отказалась выполнять запрос, было назначено слушание, но до того, как оно состоялось, ФБР нашло некое третье лицо, которое имело доступ к телефону и разблокировало его. Запрос был отозван, но история о конфиденциальности, секретности и доступе к темным данным на мобильных телефонах далека от своего завершения.

Национальные статистические службы являются государственными органами, которые собирают и сопоставляют данные по всему населению страны, а затем анализируют с целью разработки на их основе эффективной социальной и государственной политики. Такие органы должны хранить личные данные в секрете, допуская публикацию лишь статистических сводок. Например, вы ожидаете, что национальная статистическая служба вашей страны не будет разглашать размер вашей зарплаты или историю болезни, сообщая только о распределении зарплат и количестве людей, у которых диагностированы те или иные заболевания. Такая политика может привести к деликатным проблемам конфиденциальности. В частности, если выдается информация об относительно небольшой группе людей, возможно, окажется несложным идентифицировать лиц в этой группе. Например, публикация информации о мужчинах в возрасте от 50 до 55 лет с указанием почтового индекса, в зоне которого они проживают, может существенно сузить поиск. В самом худшем случае может быть всего один человек, который отвечает всем условиям, определяющим группу.

Из-за этих и подобных им деликатных вопросов национальные статистические службы и другие органы государственной власти разработали инструменты для сохранения данных в темноте, чтобы можно было распространять информацию о населении без нанесения ущерба конфиденциальности отдельно взятого человека. Например, если перекрестная классификация критериев выдает небольшой список людей (скажем, тех, кто живет в определенном городе и зарабатывает более £1 млн в год), то эту ячейку перекрестной классификации можно объединить с соседними ячейками (с теми, кто живет в близлежащих городах или зарабатывает более £100 000 в год).

Другая стратегия, которую используют статистические службы для сокрытия данных, состоит в их искажении случайным образом. Например, небольшое число, выбранное случайным образом, может добавляться к каждому значению таблицы так, чтобы ее можно было опубликовать без разглашения точных чисел, но сохранить общую картину. Существуют способы сохранения требуемых аспектов (например, общих средних значений, распределений чисел в разных группах) точными, хотя все составляющие совокупность числа изменяются.

Третья стратегия – моделирование распределения и характеристик истинных данных с последующим использованием модели для генерации синтетических данных с теми же свойствами, подобно тому, как это происходит при симуляции. Например, мы можем рассчитать средний возраст и разброс по возрастам в популяции, а также общую структуру распределения по возрасту, а затем сгенерировать искусственные данные, которые имеют точно такую же структуру среднего, разброса и распределения. Таким образом, реальные данные полностью заменяются, но (до определенного момента) сводки, сгенерированные из синтетических данных, совпадают с реальными.

Данные можно также анонимизировать. Это означает, что информация, которая служит для идентификации людей, уничтожается. Например, из записей удаляются имена, адреса и номера социального страхования. Недостатком анонимизации является то, что потенциал повторной идентификации, позволяющей установить, кому принадлежит конкретная запись, начисто теряется. Так, в записях клинических испытаний анонимность может быть сохранена путем удаления имен и адресов, но если позднее обнаруживается, что некоторые пациенты подвергаются серьезному риску, то возникает необходимость вновь идентифицировать их. Кроме того, для многих организаций ведение записей, позволяющих идентифицировать людей, имеет решающее значение для деятельности.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика