Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого используется аббревиатура NA, что означает not available или «нет данных»). В таблице приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного обучения[21]. Данные были собраны из анкет, выданных посетителям торгового центра в районе залива Сан-Франциско. Цель исследования заключалась в построении модели прогнозирования доходов в зависимости от переменных. Вот эти переменные: A – пол, B – семейное положение, C – возраст, D – образование, E – род занятий, F – сколько лет проживает в Сан-Франциско, G – число работающих в семье, H – численность семьи, I – число членов семьи младше 18 лет, J – статус домохозяйства, K – тип жилой недвижимости, L – этническая группа, M – язык и, наконец, последняя переменная, которая должна была быть спрогнозирована, N – доход (на сайте дается более подробная информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице, но в 2117 из них есть отсутствующие значения – так же, как и в трех строках приведенного фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти отсутствующие значения явно относятся к
Столбец таблицы, обозначенный буквой «М», показывает ответы на вопрос «На каком языке чаще всего говорят в вашем доме?». Есть три варианта ответов: 1 – на английском, 2 – на испанском и 3 – на любом другом языке. Поскольку только одна из этих категорий может быть верной для каждого домохозяйства, а вместе они включают в себя все возможные языки, то мы знаем, что для каждой строки существует только один из трех предложенных вариантов ответа. Но по какой-то причине два человека в нашей выборке просто не стали отвечать.
Иногда, впрочем, записи являются неполными по причине того, что
Запись с пробелами сразу показывает, что чего-то не хватает (
Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США. На основе опросов популярный журнал
Результаты этих выборов и ошибочный прогноз
Подобно попытке оценить средний возраст населения страны на основе выборок, сделанных в ночных клубах или домах престарелых, это объяснение ошибочного прогноза предполагает, что причина появления темных данных кроется вовсе не в отказе людей отвечать на вопросы, а в неправильном определении первоначального списка респондентов.