Хорошо известно, что подобные методы используют эксперты в области судебной статистики и правоохранительные органы, выявляющие мошенничества, но в действительности сфера их применения гораздо шире. Проекты британской сети по изучению административных данных продемонстрировали мощь такого подхода[60]. Этот консорциум университетов и национальных статистических институтов четырех стран Соединенного Королевства постарался облегчить процессы объединения и анализа административных данных для исследований в области социологии и государственной политики. Например, в одном из проектов были собраны данные из нескольких источников для изучения влияния жилищных субсидий на состояние здоровья бездомных и использование ими медицинских услуг. Другая объединенная база данных позволила изучить влияние «топливной бедности» на здоровье граждан. Еще одна объединенная база данных была создана, чтобы выявить параметры связи между плотностью точек продажи алкоголя и здоровьем местного населения.
Преимущества такого подхода ярко раскрылись в проекте, который связал данные шести социальных служб в Соединенных Штатах, чтобы получить четкую картину бездомности в округе Лос-Анджелес, и в рамках которого была разработана программа строительства 10 000 домов для бездомных с проблемами психического здоровья стоимостью $2 млрд[61].
Потенциал подобных проектов неограничен, а сами они демонстрируют возможности современных технологий обработки данных для того, чтобы нести людям добро. Однако связывание наборов данных и их объединение не обходятся без проблем, поскольку и здесь темные данные создают риски. Для объединения наборов данных нужны общие идентификаторы, чтобы записи в одном наборе можно было соотнести с записями в другом. Но часто данные регистрируются в разных форматах или оформляются в разных стилях, так что возникают несоответствия. Почти всегда в одной базе данных можно найти записи, имеющие отношение к людям, которых нет в другой базе данных. Дублирующие друг друга записи еще больше усложняют ситуацию. Методы сопоставления и связывания данных для уменьшения объема темной части уже стали важной областью исследований, и в дальнейшем их значение будет только возрастать по мере накопления больших наборов данных.
Итак, подведем итог. В главе 2 мы рассмотрели различные виды данных, а в двух последующих, включая эту, – риски, связанные с темными данными, которые возникают в процессе сбора данных. В число таких рисков входят неоднозначные определения, отсутствующие переменные, случайные аспекты измерительных процессов, ограничения приборов, укрупнение данных, эффект «неуклюжего пальца» и др. Но существует целый ряд рисков, еще не рассмотренных нами. В следующей главе мы познакомимся с совершенно другим классом источников темных данных.
Глава 5
Стратегические темные данные
Уловки
Так называемая Директива по гендерным вопросам[62], действующая на территории Евросоюза, запрещает страховым компаниям использовать параметр половой принадлежности в процессе принятия решений о размере страхового взноса. Иначе говоря, она требует, чтобы пол рассматривался в качестве темных данных[63]. Это означает, что при прочих равных условиях мужчины и женщины должны платить одинаковые взносы. Иначе дела обстоят в Канаде, где в 1992 г. Верховный суд разрешил учитывать пол в моделях оценки рисков. Это решение привело к тому, что один мужчина из Альберты, ошарашенный суммой, которую ему придется выкладывать за страховку своего Chevrolet Cruze, официально получил новое свидетельство о рождении, подтверждающее, что он женщина. При этом он публично заявил следующее: «Я мужчина на 100 %, но по закону теперь я – женщина». Такое легальное сокрытие своего настоящего пола позволило ему экономить $1100 в год.
Мошенничество, о котором пойдет речь далее, представляет собой попытку сознательно ввести в заблуждение и путем сокрытия фактов заставить людей поверить в то, что происходящее имеет иной смысл, чем на самом деле. В отличие от этого уловки, когда человек переигрывает систему, основаны на использовании в своих интересах неоднозначных и непреднамеренных аспектов. Темные данные в этом случае возникают не из-за умышленного сокрытия, а в результате существования лазеек в устройстве самой системы, которые можно использовать в своих интересах. Это означает, что уловки обычно не являются незаконными: их цель состоит в том, чтобы, оставаясь в рамках правил и манипулируя ими, получить преимущество. Уловки – это темные данные