Стратегия рандомизированного ответа – способ скрывать данные по мере их сбора. Есть также способы скрывать данные во время расчетов.
Защищенное многостороннее вычисление обеспечивает суммирования данных по популяции без какой-либо идентификации отдельных ее членов при работе со значениями в масштабе всей популяции или отдельной выборки. Но на самом деле можно пойти еще дальше. Гомоморфное вычисление позволяет шифровать данные, затемнять их и предоставлять кому бы то ни было для анализа, с тем чтобы он получил зашифрованный результат, не зная, что означают данные и результат. В этом случае вы – единственный, кто знает, как расшифровать значения данных и результат. История этого метода началась примерно с 2009 г., когда была опубликована статья Крейга Джентри из исследовательского центра IBM Watson, но сама идея родом из 1970-х гг.[164] Далее приведен несложный и выдуманный пример, иллюстрирующий эту идею: в реальных приложениях используются куда более сложные методы.
Предположим, мы хотим рассчитать средний возраст членов некоего тайного общества, но вот беда: у нас нет даже калькулятора. Поэтому мы просим кого-нибудь со стороны, у кого он есть, сделать за нас расчеты, однако не хотим, чтобы этот человек видел значения возрастов (общество все-таки тайное). Чтобы сделать это, мы начинаем с «шифрования» возрастов, добавляя разные случайно выбранные числа к каждому из них. При этом мы вычисляем среднее значение всех случайных добавленных чисел. Теперь можно отправлять нашу шифровку – суммы исходных и случайных чисел – человеку, который взялся выполнить калькуляцию. Он складывает зашифрованные числа и отправляет нам их средние значения. Несложно догадаться, что если мы вычтем среднее значение случайных чисел из общего среднего, то получим средний возраст членов тайного общества.
Понятно, что это очень упрощенный пример, и, как правило, требуется сделать нечто более сложное, чем найти среднее значение.
Теперь мы знаем, что данные могут быть собраны, не будучи увиденными теми, кто их собирает, и то, что данные можно анализировать так, чтобы осуществляющие анализ не понимали, что именно они анализируют. В более общем смысле эта глава переворачивает концепцию темных данных с ног на голову. Обычно темные данные являются источником проблем – они скрывают от нас то, что мы хотим знать, и могут привести к искаженным выводам и недопониманию. Но из этой главы мы узнали о методах, которые делают сокрытие данных чрезвычайно полезным и, как следствие, ведут к более точным оценкам, улучшают процесс принятия решений и даже защищают от преступников.
Глава 10
Классификация темных данных
Систематика темных данных
Мы рассмотрели массу примеров темных данных, причины и последствия их появления, а также методы решения вызванных ими проблем. Однако ситуации часто бывают запутанными, поскольку данные могут быть темными по нескольким причинам одновременно. Вот пример.