Другой пример темных данных, возникающих из-за различий в определениях, дает нам статистика преступности. На национальном уровне такая статистика по Англии и Уэльсу поступает из двух основных и довольно далеких друг от друга источников: Обзор преступности в Англии и Уэльсе (CSE & W) и полицейская статистика правонарушений (PRC). CSE & W является эквивалентом Национального обзора преступности и виктимизации в США. Он был запущен в 1982 г. (одновременно с Британским обзором преступности) для изучения опыта столкновения с преступностью в течение последнего года. Данные PRC предоставляются 43 полицейскими управлениями Англии и Уэльса, а также Британской транспортной полицией, и анализируются Национальной статистической службой.
Различия в характере этих процессов сбора информации непосредственно влияют на возникновение темных данных. Поскольку обзор CSE & W призван выяснить, жертвами каких преступлений становились респонденты, то он по определению не дает никакой информации, скажем, об убийствах или хранении наркотиков. Он также не затрагивает людей в местах коллективного проживания, таких как дома престарелых или студенческие общежития, и не распространяется на преступления против коммерческих организаций или государственных органов. Это говорит о большом потенциале для темных данных, хотя когда мы четко определяем охватываемую обзором область, то делаем этот риск видимым.
Статистика PRC также содержит темные данные, но они отличаются от темных данных обзора CSE & W. По определению, статистика PRC не включает в себя преступления, о которых не сообщают полиции, например, потому, что жертвы порой не рассчитывают на ее помощь. Это существенный момент, поскольку, согласно оценкам, в полицию сообщают в среднем только о 4 из 10 преступлений, хотя и очевидно, что это число различно для разных видов преступности. Более того, в полицейской статистике отражаются в основном так называемые регистрируемые преступления, которые могут быть рассмотрены судом присяжных. Дополнительные сложности возникают из-за механизмов обратной связи (
Использование разных определений объясняет расхождения между уровнями преступности, которые публикуют эти два источника. Например, в 1997 г., по данным PRC, было совершено 4,6 млн правонарушений, в то время как, по оценкам CSE & W, их было 16,5 млн. Различия в определениях также объясняют крайне озадачивший экспертов и читателей факт, состоящий в том, что, согласно PRC, число преступлений в период с 1997 по 2003 г. возросло (с 4,6 млн до 5,5 млн, в то время как обзор показал сокращение их количества (с 16,5 млн до 12,4 млн)[41]. Так все-таки, растет или сокращается преступность? Несложно догадаться, чьи данные выбрало большинство СМИ для публикации.
Число областей, в которых определения могут порождать темные данные по причине того, что они не включают те виды данных, которые мы хотели бы получить, огромно. Иногда последствия таких ситуаций бывают просто поразительными. Например, именно проблема несоответствия определений лежит в основе того факта, что сегодня от болезни Альцгеймера умирает больше людей, чем в прошлом.
Болезнь Альцгеймера представляет собой наиболее распространенную форму деменции. Она носит прогрессирующий характер, когда на ранней стадии появляется незначительная забывчивость, которая на более поздних стадиях перерастает в дезориентацию, неспособность понимать происходящее вокруг и изменение личности. Считается, что болезнь в ближайшее время затронет около 50 млн человек во всем мире и со временем этот показатель будет только расти, достигнув, по прогнозам, к 2030 г. 75 млн. И темные данные могут объяснить такой рост как минимум двумя способами.
Во-первых, никто не умирал от этой болезни до 1901 г., поскольку именно тогда немецкий психиатр Алоис Альцгеймер впервые описал случай заболевания, которое впоследствии было названо его именем. Кроме того, первое время диагноз ставили только людям в возрасте от 45 до 65 лет с симптомами деменции и лишь позже, уже в последней четверти XX в., было снято ограничение по возрастному диапазону. Очевидно, что такое расширенное определение изменило число диагностированных людей. Данные, которые ранее рассматривались как несущественные, попали в поле зрения.