Участникам конкурса предоставили огромное количество данных о почти полумиллионе пользователей Netflix и около миллиона анонимных мнений, оценивающих 17 700 фильмов. Задача состояла в том, чтобы предсказать, как пользователи оценят фильмы, которых еще
С точки зрения таких компаний, нет ничего плохого в том, что они занимаются сбором и уточнением ваших данных. Конечно, для Target было бы удобнее всего, если они могли бы точно узнавать о беременности клиенток, отслеживая данные на их карточках постоянного покупателя. Но они этого не могут и потому не знают, беременны вы или нет. Тем не менее даже догадки о вашей беременности принесли бы компании пользу и дали бы возможность делать свои прогнозы на 10 % точнее, чем сейчас. То же самое касается Google. Компании нет необходимости точно знать, какой продукт вы хотите приобрести; все, что ей нужно, – иметь чуть более точное представление о ваших предпочтениях, чем конкурирующие фирмы. Как правило, компании работают с невысокой рентабельностью. Для вас нет ничего страшного, прогнозируете ли вы свое поведение точнее хотя бы процентов на десять или нет, но для компаний 10 % – это довольно большие деньги. Во время проведения конкурса я спросил вице-президента Netflix Джима Беннетта, который занимался вопросами рекомендаций, почему компания предложила столь большой приз. Он ответил, что мне следовало бы спросить, почему приз такой маленький. На первый взгляд небольшое повышение эффективности рекомендаций на 10 % позволило бы возместить этот миллион долларов за меньшее время, чем то, которое понадобилось для создания еще одного фильма The Fast and the Furious («Форсаж»).
Знает ли Facebook, что вы террорист?
Итак, корпорации, имеющие доступ к большим массивам информации, по-прежнему обладают довольно ограниченными знаниями о ваших персональных данных. Что тогда вас волнует?
И все-таки причины для беспокойства есть. Вот одна из них. Предположим, группа специалистов Facebook решает разработать метод определения, кто из пользователей социальной сети может быть причастен к террористической деятельности, направленной против Соединенных Штатов Америки. В математическом плане эта задача не сильно отличается от определения вероятности, что пользователю Netflix понравится фильм Ocean’s Thirteen («Тринадцать друзей Оушена»). Как правило, Facebook известны реальные имена пользователей и их место жительства, поэтому компания может использовать информацию из открытых источников для составления списка профилей, принадлежащих людям, уже имевшим судимости за террористические преступления или за поддержку террористических группировок. Далее начинается математика. Склонны ли террористы делать больше обновлений в день по сравнению с общей совокупностью пользователей этой социальной сети? или меньше? или этот показатель у них такой же, как и у всех остальных? Есть ли слова, которые чаще появляются в их обновлениях? Есть ли музыкальные группы, спортивные команды или продукты, к которым они особенно испытывают или не испытывают симпатию? Сложив все это вместе, вы можете присвоить каждому пользователю балл[146], отражающий вашу лучшую оценку