Однако не столько важно, увеличат ли большие данные риск нарушения конфиденциальности (а они увеличат), сколько изменится ли сам характер риска. Если угроза просто возрастет, то некоторые законы и правила о неприкосновенности частной жизни подойдут и для эпохи больших данных — потребуется лишь удвоить нынешние усилия. С другой стороны, если ситуация изменится, потребуются новые решения.
К сожалению, проблема все же приобретает новые очертания. Ценность больших данных не ограничивается первичным использованием — существенная ее часть, как мы уже поясняли, состоит во вторичном применении.
Это подрывает главную роль частных лиц в действующем законодательстве о неприкосновенности частной жизни. Сборщики данных должны сообщать им, какую информацию собирают и с какой целью. Чтобы начать сбор данных, сборщикам необходимо получить от частных лиц согласие. Хотя это и не единственный способ обработки личных данных законным путем, понятие «уведомления и согласия» стало краеугольным камнем политики конфиденциальности по всему миру. (На практике это вылилось в огромные примечания о конфиденциальности, которые мало кто читает, не говоря уже о том, чтобы понять, но это уже другая история.)
В эпоху больших данных самые инновационные способы их вторичного использования невозможно было представить на момент их сбора. Как же компаниям уведомлять о цели, которая еще не придумана? И разве станут частные лица давать информированное согласие на неизвестное? А при отсутствии согласия, для того чтобы анализировать большие данные, содержащие личную информацию, потребуется обращаться к каждому лично, спрашивая разрешение на каждое повторное применение. Вы можете себе представить, как Google пытается связаться с миллиардами пользователей, чтобы получить от них разрешение на анализ их старых поисковых запросов с целью спрогнозировать грипп? Ни одна компания не возьмет на себя такие расходы, даже если бы это было технически возможно.
Альтернативный вариант — перед сбором получать согласие на любое дальнейшее использование их данных — тоже бесполезен. Такое разрешение «оптом» сводит на нет само понятие информированного согласия. В контексте больших данных проверенная временем концепция «уведомления и согласия» налагает слишком много ограничений для извлечения скрытой ценности данных и слишком бесполезна для защиты конфиденциальности частных лиц.
Кроме того, в эпоху больших данных технические способы защиты неприкосновенности частной жизни тоже сдают свои позиции. Если вся информация находится в наборе данных, ее извлечение само по себе может оставить след. Возьмем, к примеру, функцию Google Street View. Для ее создания собрали фотографии дорог и домов во многих странах (как и многие другие данные — но это спорный вопрос). В Германии компания Google столкнулась с массовым протестом общественности и СМИ. Люди опасались, что фотографии их домов и садов помогут бандам грабителей выбрать выгодные цели. Под давлением регулирующих органов Google согласилась предоставить домовладельцам возможность отказа от участия, которая позволяла размыть изображения их домов. Но результаты этой возможности заметны в Street View — вы видите размытые дома, а грабители могут расценить их как сигнал, что это отличная цель.
Такой технический подход к защите конфиденциальности, как анонимизация, тоже, как правило, неэффективен. Анонимизация подразумевает удаление из наборов данных всех личных идентификаторов (имя, адрес, номер кредитной карты, дата рождения, номер социального страхования и пр.). Полученные данные можно анализировать без ущерба для чьей-либо конфиденциальности. Этот подход работает в мире малых данных. Большие данные упрощают повторное установление личности в связи с увеличением количества и разнообразия информации. Рассмотрим примеры с веб-поисками и оценками кинофильмов, которые, казалось бы, не позволяют установить личность.
В августе 2006 года компания AOL сделала общедоступными горы старых поисковых запросов под благовидным намерением дать исследователям возможность анализировать их в поисках интересных открытий. Набор данных из 20 миллионов поисковых запросов от 650 000 пользователей за период с 1 марта по 31 мая 2006 года был тщательно анонимизирован. Личные данные, такие как имя пользователя и IP-адрес, были удалены и замещены уникальным числовым идентификатором. Таким образом, исследователи могли связать между собой поисковые запросы от одного и того же человека, но не имели информации для установления его личности.
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии