И, конечно, не следует вносить в модели спорные фичи, такие как пол, расу, признаки тяжелых болезней, возраст и другие. В России эта повестка пока не полыхает так, как в Америке, но после Black Lives Matter и Time’s Up специалисты, занимающиеся искусственным интеллектом, не могут ее обойти. На одном из семинаров Эндрю Ына рабочие группы тоже пытались сформулировать этические нормы [103]. Потому что причиной смещенности датасета часто оказываются предрассудки в обществе – интересный материал на эту тему был опубликован в Harvard Business Review «What Do We Do About the Biases in AI?» [104]. Там описан такой случай: в 1988 году Британская комиссия по расовому равенству обнаружила дискриминацию в высшем медицинском учебном заведении. Компьютерная программа, которая определяла, каких заявителей пригласить на интервью, пессимизировала женщин и людей с неевропейскими именами. При этом ее точность после обучения достигала 90–95 %. Проблема не в программе, а в датасете, который создали люди, раньше принимавшие решения, а машина просто обнаружила и повторила закономерность. Бороться с этим смещением не так просто, но возможно. Например, добиваться диверсификации в собственной команде. В российских реалиях как минимум создавать равные условия при найме мужчинам и женщинам.
Как защищают пользовательские данные
Ситуация с конфиденциальностью становится лучше – и вот самые значимые события, которые повлияли на рынок защиты персональных данных, включая небезобидные куки.
Во-первых, появились блокировщики рекламы в настольных и мобильных браузерах. Они блокируют не только показ рекламы, но и часть сторонних кук (third party cookies), которые используются при передаче данных третьим лицам. Deloitte провели исследование [105] c говорящим названием «Уже почти половина россиян стали блокировать интернет-рекламу», согласно которому рекламу блокируют 44 % процента российских интернет-пользователей. В мобильных браузерах блокировать ее сложнее, поэтому распространенность блокировщиков там меньше. Я хочу только напомнить, что большинство контентных ресурсов живут за счет рекламы, и использование блокировщиков бьет по их доходам. На самом деле не так много сайтов использовали агрессивную рекламу в виде всплывающих окон, но эти агрессивные сайты повлияли на всю индустрию, потому что такая практика привела к массовой установке блокировщиков. Поисковые системы стали из-за этого терять доходы – и начали пессимизировать выдачу (опускать вниз списка) сайты с агрессивной рекламой, чтобы она меньше раздражала пользователей и те не ставили бы блокировщики.
Следующим шагом было введение в браузеры блокировки сторонних кук по умолчанию. В браузере от Apple уже сразу включен пункт «Prevent cross-site tracking». Бюро интерактивной рекламы – международная организация, которая разрабатывает стандарты в рекламной сфере и обеспечивает легальную поддержку индустрии онлайн-рекламы, – провело исследование «IAB Europe Guide to the Post Third-Party Cookie Era» [106], согласно которому 30 % показов рекламы происходят через браузеры Safari и Firefox, в которых сторонние куки уже блокируются по умолчанию. Еще в 65 % показов будут заблокированы с Google Chrome, когда Google решится это сделать. В январе 2020 года Google объявил, что в течение двух лет прекратит поддержку сторонних кук. Но компания тянет с решением, потому что, в отличие от Apple (Safari) и Mozilla (Firefox), она зарабатывает деньги на рекламе, в том числе RTB, которой просто необходимы сторонние куки для обогащения информацией.
Это не касается рекламы в приложениях – Mobile Advertising ID по-прежнему будет работать. Но в любом случае есть возможность сбросить эти мобильные куки в начальное состояние через настройки системы. Еще я заметил, что с каждым обновлением мобильной операционной системы IOS приложениям дается все меньше и меньше прав на доступ по умолчанию к данным клиента. Например, сейчас можно изменить доступ к геоинформации (Никогда, Спросить в следующий раз, При использовании приложения) или отдельным фотографиям.
Хочу также обратить внимание на один технический нюанс – в современных системах полностью удалить данные очень сложно. Дело в том, что кроме основных рабочих баз данных, где ваши данные можно удалить по вашему ID, есть еще более низкоуровневые системы, например хранилище Hadoop и системы резервного копирования. Они оптимизированы для сохранения данных, но никак не для редактирования. Это делает удаление данных конкретного пользователя настолько сложным, что никто этим заниматься не будет. А если ваши данные все-таки удалили по вашему требованию, у компании остается возможность их восстановить, если она вдруг этого захочет.