В наше время данные используются повсеместно – вопрос в том, насколько это безопасно для людей. В сфере программирования существует понятие «жадный алгоритм» – это алгоритм, ориентированный на получение сиюминутной краткосрочной выгоды. Так вот, коммерческие компании в большинстве случаев тоже руководствуются «жадными» алгоритмами и хотят извлекать прибыль из всего, что возможно. В том числе и данных, которые мы явно или неявно оставляем. Здесь я хочу поговорить об этической стороне вопроса. Я думаю, с каждым бывало – вы поговорили с кем-то, например, о стиральной машине с вертикальной загрузкой, а через несколько минут увидели в своей ленте в соцсети рекламу этих самых стиральных машин. Это означает, что кто-то подслушал ваш разговор и воспользовался вашими данными? Конечно, это миф, но сам факт слежения за нами дает пищу для ума. Законно ли это? И если да, то насколько этично?
Как за нами следят
Наши цифровые следы можно разделить на два вида: явные (explicit) и неявные (implicit). Явные данные – те, которые мы предоставляем сознательно: заполняем анкету на сайте, ставим галочку подтверждения обработки цифровых данных, подписываем заявление или договор. Неявные – это вся информация, которую мы о себе оставляем, так называемый цифровой след: наша геопозиция через мобильную связь и систему распознавания лиц на уличных или транспортных камерах, геопозиция наших автомобилей через распознавание номеров, наши контакты, посещенные страницы в интернете. Неявных данных намного больше, чем явных, а провайдеры и потребители относятся к ним беспечно. При этом если явные данные в нашей стране хоть как-то защищаются законом о персональных данных, то неявные – вне правового поля. В Европе они стали защищенными совсем недавно с введением европейского закона GDPR [107].
Яркий пример того, как используются неявные данные, – когда по фото и видео с митингов распознают и арестовывают их участников, а тех, кто нарушил режим самоизоляции во время пандемии COVID-19, распознают по камерам наблюдения и штрафуют. Всего каких-то пятнадцать лет назад это казалось фантастикой. Эндрю Ын, главный эксперт, который стоит за алгоритмами распознавания по изображениям и которого я не раз упоминал в этой книге, сказал, что это двойственная технология: с одной стороны, она служит добру, с другой – ею легко злоупотреблять.
В наше время технология распознавания лиц уже отлично отработана, нужен всего лишь хороший датасет и доступ к камере. В статье «Мы создали “невероятную” систему распознавания лиц» [91] журналисты собрали небольшой датасет из публично доступных фотографий людей, работающих в районе Bryant Park. Они загрузили их в соответствующий сервис Amazon и буквально за 9 часов получили 2750 совпадений лиц с их датасетом. На все было потрачено всего 60 долларов. В принципе, такой датасет несложно собрать на основе социальных сетей – там есть сопоставление имени и фотографии. Раньше был условно-бесплатный сервис findface.ru (сейчас findface.pro), в который можно загрузить фотографию человека и получить его имя. В качестве датасета была использована социальная сеть «ВКонтакте».
Следующий источник неявных данных – считывание нашей точной геопозиции через смартфоны. Газета New York Times в конце 2019 года создала специальный проект «The Privacy Project» [87], где в серии статей освещаются разные вопросы сбора и использования наших данных. В статье из этой серии «One Nation Tracked» [88] рассказывается про то, как журналисты раздобыли очень большой датасет. В нем находится 50 миллионов геопозиций мобильных телефонов 12 миллионов американцев нескольких крупных городов США, включая Вашингтон, Нью-Йорк, Сан-Франциско и Лос-Анджелес. Каждая строка датасета включает в себя точное местоположение отдельного смартфона в течение нескольких месяцев 2016–2017 годов. Журналисты сделали исследование датасета и шикарную анимацию этих данных. Вроде бы данные полностью анонимизированные и поэтому безопасны, но, к великому сожалению, это не так. Пол Ом (Paul Ohm), профессор права и исследователь конфиденциальности Джорджтаунского университета, заявил в статье, что попытка представить данные геопозиций как анонимные – совершенно ложное утверждение, которое было опровергнуто множеством исследований. «Действительно точную геолокацию невозможно анонимизировать», он также добавил: «ДНК – это единственная вещь, которую сложнее анонимизировать, чем геолокацию». В большинстве случаев перемещение смартфона между домом и работой позволяет идентифицировать человека. Стал бы еще какой-то другой смартфон перемещаться между вашим домом и работой, кроме вашего? Эта статья подтверждает мое мнение, что использование неявных данных плохо защищается.