Чтобы использовать внутреннюю информацию всей этой рекламной RTB-машины, требуются сторонние куки рекламодателя, которые нужно сопоставить (cookie matching) с куками рекламной сети. Для этого на странице (необязательно рекламной площадки), которую смотрит пользователь, нужно получить два сторонних куки – рекламодателя и рекламной площадки (например, Google). Сами куки получают путем запроса прозрачной, а потому невидимой пользователю картинки размером один пиксель. Обычно это делает небольшой JavaScript-код, который вызывается при просмотре страницы пользователем. Именно в момент сопоставления кук происходит сопоставление ID клиента между рекламодателем и рекламной площадкой. С этого момента у рекламодателя намного больше данных о пользователе. Например, интернет-магазин может передавать ID своего клиента в систему Google, чтобы увидеть его в аукционах RTB, который сам же Google и проводит. Далее по этому ID подтягивается необходимая информация из внутренней базы данных магазина, например, сколько покупок совершил клиент, как давно была сделана последняя из них, какими категориями он интересуется. На основании этой информации магазин делает ставку – сколько он готов заплатить за показ своей рекламы этому клиенту, а также выбирает подходящий рекламный баннер. Если бы этой внутренней информации о покупках не было, экономика RTB-рекламы для магазина была бы значительно хуже.
Тот же механизм сопоставления кук используется при скрытом сборе и продаже данных клиента. Когда вы серфите в интернете – откройте список сетевых запросов в инструментах разработчика в браузере; вы будете удивлены, как много разных систем собирают о вас информацию. Там будут и социальные сети, которые ставят их кнопки и блоки с комментариями к статье, – все это используется для сбора информации. Именно поэтому сторонние куки находятся под ударом со стороны браузеров и законов. Согласно исследованию «The GDPR Is a Cookie Monster» [93], до введения GDPR закона в ЕС, в среднем одна страница оставляла около 80 сторонних кук, то есть порядка 80 сервисов аналитики и рекламных трекеров одновременно получали историю ваших действий в интернете.
Ваш ID в куках какого-либо сервиса – это святое. По этому ID сервис может найти у себя всю историю взаимодействий с вами. Сами куки-файлы – вещь ненадежная, и поэтому они периодически протухают. Они могут вытесняться из-за ограничений браузера или намеренно стираться пользователем. Поэтому сервисы стараются любой ценой повысить их живучесть, дублируя их хранение во всевозможных хранилищах браузера. Если JavaScript-код не находит основную куки, но находит информацию в таких хранилищах, то он восстанавливает ее из хранилища в куки. Следующая ступень – связывание всех ваших устройств в одно, так будет еще больше истории браузинга, а значит, сервис получит более полные данные. Самый простой способ это сделать – через логины: пользователь логинится на основной сайт с компьютера и с мобильного телефона. Так как это одна и та же учетная запись – то куки в основном и мобильном браузере привязываются к учетной записи сайта. А если пользователь намеренно стирает куки? Например, так делают интернет-мошенники всех мастей, которые хотят получить кредит. Чтобы найти на них управу, созданы специальные сервисы – они используют цифровые отпечатки, которые работают без кук, только на основе той информации, что можно получить из браузера одномоментно. Если цифровой отпечаток хорошо спроектирован сервисом, то он с высокой степенью сможет отличить одного пользователя от другого, а значит, и отследить потенциального мошенника. Например, так делает сервис juicyscore.com, который собирает сотню характеристик пользователя – от технических до поведенческих, когда даже вычисляется «ритмичность» ввода данных на клавиатуре.
Мы уже говорили про отслеживание и продажу данных геопозиций мобильных телефонов. Для интернет-рекламы в приложениях у смартфона есть свой ID, который является альтернативой кукам в браузерах – Mobile Advertising ID. Этот ID носит название AdID в Google Android и IDFA для устройств Apple. В принципе, это то же самое, что и куки, и у пользователя есть возможность сбросить этот ID, чтобы очистить свою историю. Эти ID недоступны из мобильных браузеров, только в приложениях [94].
Еще один источник данных – провайдеры интернета. До широкого внедрения защищенного протокола https они видели всю историю браузинга пользователей, всю информацию в адресной строке браузера. После внедрения этого протокола они видят только домены сайтов, которые вы посещаете, благодаря DNS-запросам [92], с помощью которых привычные нам имена доменов превращаются в IP-адреса, понятные маршрутизаторам. Я не думаю, что провайдеры оказывают существенное влияние на рынок данных, если только речь не идет о просмотре сайтов с очень специфичным контентом.