Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Есть еще одно важное замечание по поводу обнаружения ошибок: вы никогда не можете быть уверены, что обнаружили их все. К сожалению, истина заключается в том, что наличие ошибок (иногда) может быть доказано, а вот их отсутствие – нет. Хотя данные могут становиться ошибочными неограниченным количеством способов, число способов, которыми их можно проверить, всегда конечно. Тем не менее к этой ситуации, несомненно применим принцип Парето, и мы можем утверждать, что большинство ошибок будет обнаружено с относительно небольшими усилиями. Однако здесь действует и другой закон – закон убывающей отдачи. Если вы обнаружите 50 % ошибок, приложив определенные усилия, то точно такие же усилия, приложенные вновь, смогут обнаружить 50 %, но уже от оставшихся ошибок. Такое убывание результата будет сопровождать каждый цикл и означает, что вы никогда не сможете выявить все ошибки.

Исправление

Третий этап в борьбе с темными данными, после предотвращения и обнаружения ошибок, – это их исправление. После того, как вы заметили неверное значение, нужно понять, каким оно должно быть. Методы исправления ошибок – если, конечно, исправление вообще возможно – зависят от того, что вам известно об ожидаемых значениях, и от общего понимания возникающих ошибок. Примеры с неуместными десятичными разделителями в главе 4 иллюстрируют то, как наше общее понимание данных и опыт прошлых ошибок подсказывают, каким должно быть истинное значение. Аналогичный пример: если в таблице зарегистрировано значение скорости велосипедиста 240 км/ч, притом что все другие значения лежат в диапазоне между 8 км/ч и 32 км/ч, логично предположить, что затесался лишний ноль и истинное значение составляет 24 км/ч. Однако не стоит сразу вносить исправления, предположив истину, – необходимо всесторонне проверить свое предположение. Прежде чем исправлять ошибку в последнем примере, нелишне будет узнать, что в сентябре 2018 г. чемпионка мира по велоспорту Дениз Мюллер-Коренек установила рекорд скорости на велосипеде, разогнав его до 296 км/ч. Если не вернуться к исходному источнику или не повторить измерение, мы не сможем быть уверены в том, какое значение должно быть на месте предполагаемого ошибочного, даже если сам факт ошибки не вызывает сомнений.

Последнее общее замечание на тему ошибок в данных, которое я хотел бы сделать, связано с новыми удивительными мирами данных и их пониманием, которые нам открыли и продолжают открывать компьютерные вычисления. Сегодня собираются, хранятся и обрабатываются немыслимые еще недавно, поистине колоссальные массивы данных. Эти базы данных открывают огромные возможности. Но не стоит забывать, что применение компьютеров также подразумевает и некоторую фундаментальную непрозрачность. Хотя они позволяют нам разглядеть в данных то, что мы никогда бы не обнаружили невооруженным глазом, в то же время компьютеры действуют как посредник между нами и данными. Компьютеры могут скрывать от нас какие-то аспекты данных.

<p>Глава 9</p><p>Полезные темные данные</p><p><emphasis>Переосмысление вопроса</emphasis></p><p>Сокрытие данных</p>

Может показаться, что темные данные – это сплошные проблемы и недостатки. Да, ключевым посланием этой книги является призыв к осторожности. Но есть методы, с помощью которых мы можем использовать темные данные в собственных интересах, при условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность. Другими словами, существуют методы, с помощью которых мы можем оседлать нашу темную лошадку – направить неопределенность, присущую темным данным, против них же самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить эффективность действий в различных областях и даже просто экономить деньги. Все это становится возможным, если стратегически игнорировать часть данных и намеренно уводить их в тень.

Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с некоторыми новыми перспективными идеями, способными сделать статистические методы работы с темными данными более совершенными.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика