Есть еще одно важное замечание по поводу обнаружения ошибок: вы никогда не можете быть уверены, что обнаружили их все. К сожалению, истина заключается в том, что наличие ошибок (иногда) может быть доказано, а вот их отсутствие – нет. Хотя данные могут становиться ошибочными неограниченным количеством способов, число способов, которыми их можно проверить, всегда конечно. Тем не менее к этой ситуации, несомненно применим принцип Парето, и мы можем утверждать, что большинство ошибок будет обнаружено с относительно небольшими усилиями. Однако здесь действует и другой закон – закон убывающей отдачи. Если вы обнаружите 50 % ошибок, приложив определенные усилия, то точно такие же усилия, приложенные вновь, смогут обнаружить 50 %, но уже от оставшихся ошибок. Такое убывание результата будет сопровождать каждый цикл и означает, что вы никогда не сможете выявить все ошибки.
ИсправлениеТретий этап в борьбе с темными данными, после предотвращения и обнаружения ошибок, – это их исправление. После того, как вы заметили неверное значение, нужно понять, каким оно должно быть. Методы исправления ошибок – если, конечно, исправление вообще возможно – зависят от того, что вам известно об ожидаемых значениях, и от общего понимания возникающих ошибок. Примеры с неуместными десятичными разделителями в главе 4 иллюстрируют то, как наше общее понимание данных и опыт прошлых ошибок подсказывают, каким должно быть истинное значение. Аналогичный пример: если в таблице зарегистрировано значение скорости велосипедиста 240 км/ч, притом что все другие значения лежат в диапазоне между 8 км/ч и 32 км/ч, логично предположить, что затесался лишний ноль и истинное значение составляет 24 км/ч. Однако не стоит сразу вносить исправления, предположив истину, – необходимо всесторонне проверить свое предположение. Прежде чем исправлять ошибку в последнем примере, нелишне будет узнать, что в сентябре 2018 г. чемпионка мира по велоспорту Дениз Мюллер-Коренек установила рекорд скорости на велосипеде, разогнав его до 296 км/ч. Если не вернуться к исходному источнику или не повторить измерение, мы не сможем быть уверены в том, какое значение должно быть на месте предполагаемого ошибочного, даже если сам факт ошибки не вызывает сомнений.
Последнее общее замечание на тему ошибок в данных, которое я хотел бы сделать, связано с новыми удивительными мирами данных и их пониманием, которые нам открыли и продолжают открывать компьютерные вычисления. Сегодня собираются, хранятся и обрабатываются немыслимые еще недавно, поистине колоссальные массивы данных. Эти базы данных открывают огромные возможности. Но не стоит забывать, что применение компьютеров также подразумевает и некоторую фундаментальную непрозрачность. Хотя они позволяют нам разглядеть в данных то, что мы никогда бы не обнаружили невооруженным глазом, в то же время компьютеры действуют как посредник между нами и данными. Компьютеры могут скрывать от нас какие-то аспекты данных.
Глава 9
Полезные темные данные
Переосмысление вопроса
Сокрытие данных
Может показаться, что темные данные – это сплошные проблемы и недостатки. Да, ключевым посланием этой книги является призыв к осторожности. Но есть методы, с помощью которых мы можем использовать темные данные в собственных интересах, при условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность. Другими словами, существуют методы, с помощью которых мы можем оседлать нашу темную лошадку – направить неопределенность, присущую темным данным, против них же самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить эффективность действий в различных областях и даже просто экономить деньги. Все это становится возможным, если стратегически игнорировать часть данных и намеренно уводить их в тень.
Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с некоторыми новыми перспективными идеями, способными сделать статистические методы работы с темными данными более совершенными.