Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Причина в том, что реальные данные всегда подвержены влиянию случайных аспектов. Самое точное измерение массы, заряда или давления в физическом эксперименте, как правило, все равно даст случайный разброс значений из-за флуктуаций исходных условий, и остается только надеяться, что полученные данные будут распределены вокруг истинного значения того, что измеряется. Измерение роста людей в популяции дает распределение значений, потому что рост – это индивидуальная характеристика. Количество и вес семян, произведенных растениями одного вида, будут для каждого растения свои по той же причине. Поэтому, если мы хотим подделать данные так, чтобы они выглядели реально, мы должны учесть этот случайный разброс.

Однако люди сами по себе, без дополнительных технических средств, не очень хорошо справляются с этой задачей. Мы не способны выдумывать данные, которые бы выглядели убедительно случайными, то есть не имели внутренних закономерностей. Если вы попросите разных людей сгенерировать случайным образом достаточно большой числовой ряд, то увидите, что, как правило, в нем будет слишком мало сгруппированных одинаковых цифр (например, 333 и 77), слишком часто будут встречаться восходящие или нисходящие серии (например, 654 и 4567), слишком навязчиво будут повторяться числовые последовательности и другие типы закономерностей. Например, Берни Мэдофф, о котором мы говорили в главе 1, как выяснилось после его разоблачения, куда ни попадя вставлял парные восьмерки и шестерки, начиная от финансовой отчетности и заканчивая фальшивыми результатами игры в гольф.

Естественно, все зависит от степени изощренности мошенника. Тот, кто хорошо знаком со статистикой, будет в курсе того, чем ложные данные могут отличаться от реальных, и постарается учесть эти аспекты. В качестве альтернативы простому измышлению люди могут копировать данные из другого источника или даже не просто копировать, а добавлять к ним небольшие случайные возмущения. Все это заставляет задуматься: не легче ли провести реальный эксперимент, чем прилагать столько усилий для создания убедительной фальшивки?

Приукрашивание

Приукрашивание – корректировка данных с целью их лучшего соответствия теории. Бэббидж охарактеризовал этот процесс как «отрезание маленьких кусочков тут и там от наблюдений, которые слишком далеко отстоят от средних значений, и приклеивание их к тем, которые находятся слишком близко». При этом стратегическое среднее значение может быть оставлено без изменений, а диапазон значений сужен, что заставит неопределенность измерений казаться меньше, чем она есть на самом деле.

В статистике существуют надежные методы, которые делают нечто подобное и при определенных обстоятельствах защищают от избыточного влияния, которое необычно высокие или низкие (а значит, возможно, ложные) значения могут оказать на результаты. Один из таких методов, винсоризация (в честь статистика Чарльза Уинсора), заключается в замене экстремальных значений другими, находящимися на определенном удалении от среднего. Например, значения, лежащие за пределами двух стандартных отклонений, могут считаться недостоверными и заменяться значениями на уровне двух стандартных отклонений. Среднее значение полученных в результате данных будет менее изменчиво, чем среднее значение исходных данных, поэтому ваша аудитория должна обязательно знать, что данные были изменены. Если вы не сообщите об этом, то замаскируете правду. И обратите внимание, что этот технический прием не подразумевает приклеивания обрезанных «кусочков» данных к другим значениям!

В предельной версии приукрашивания фрагменты данных перемещаются или копируются целыми партиями из одной части большого набора данных в другую. Как и при банальном выдумывании данных, такие «оптовые поставки» могут сэкономить массу усилий! Я видел, как это делалось с числовыми данными в случаях предполагаемого мошенничества, которые мне довелось изучать, но все-таки чаще такой подход используют при работе с фотографиями, когда хотят, чтобы на них отображалось нечто иное.

Я также неоднократно видел, как серьезным приукрашиванием занимаются и на более высоком уровне. Работы, представленные в авторитетные научные журналы, проходят процедуру рецензирования, в ходе которой они рассылаются нескольким независимым исследователям для оценки точности представленных результатов, правильности проведения исследования и важности его публикации. Если рецензент указывает на какие-то недостатки в исследовании, то авторы в ответ порой вносят в статью поправки, добавляющие двусмысленности, чтобы другие рецензенты (да и читатели) не смогли обнаружить ошибок, после чего отправляют статью в другой журнал.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика