Читаем Разберись в Data Science полностью

В части IV вы узнаете о том, как извлечь максимальную пользу из своего пути становления главным по данным, учась на чужих ошибках, как технических, так и связанных с человеческим фактором.

Эта часть состоит из следующих глав:

Глава 13. Остерегайтесь ловушек.

Глава 14. Знайте людей и типы личностей.

Глава 15. Что дальше?

<p>Глава 13</p><p>Остерегайтесь ловушек</p>

«Первый принцип – не обманывать себя, а себя обмануть легче всего»

– Ричард Ф. Фейнман, лауреат Нобелевской премии по физике

Чтобы понимать, думать и говорить на языке данных, очень важно знать об ошибках, которые вы можете допустить, если потеряете бдительность в ходе работы с ними и их интерпретации. Некоторые подводные камни довольно легко устранить, но их трудно обнаружить, если вы не знаете, где искать. А если вы не будете соблюдать осторожность, то они могут обернуться крупными катастрофами, подобными тем, которые были описаны ранее в этой книге (вспомните аварию шаттла «Челленджер» и крах рынка жилья в 2008 году).

В этой главе мы напомним вам о тех ловушках, о которых вы уже знаете, и познакомим вас с несколькими другими распространенными подводными камнями, которые могут сорвать всю вашу работу или (что еще хуже) заставить вас прийти к неверным выводам.

Прежде чем мы начнем, стоит отметить, что обсуждать чужие ошибки и просчеты в работе с данными очень легко и весело. Однако, хотя мы призываем вас скептически относиться к работе, проделанной другими специалистами в вашей области, стоит помнить о том, что позитивные изменения невозможны без проявления сочувствия и поддержки. Ошибки случаются – и надо отметить, что авторы этой книги пришли к знаниям, изложенным в этой главе, далеко не легким путем. Поэтому давайте признаем, что в основе большинства ловушек лежат не чьи-то гнусные намерения и недобросовестность. Чаще люди просто не знают о том, что может пойти не так. Именно об этом мы и поговорим в данной главе.

<p>Предвзятости и странности в данных</p>

Предвзятость – это сложная тема, затрагивающая различные дисциплины. Под предвзятостью мы понимаем однобокое (а иногда даже непоследовательное) предпочтение, отдаваемое идеям и концепциям отдельными людьми и подкрепляемое их группами. В этом разделе мы обсудим распространенные варианты предвзятости в мире данных, а также такие явления, когда при первом взгляде на данные у вас может сложиться одно впечатление, а при повторном их рассмотрении – другое.

<p><emphasis>Систематическая ошибка выжившего</emphasis></p>

Представьте, что инвестиционная компания в одном и том же году запускает десятки взаимных фондов, каждый из которых содержит случайный набор акций. Если фонд не покажет целевую доходность за определенный период времени (например, если доходность индекса S&P 500 составит 10 %, а доходность одного из фондов – только 3 %), то его деятельность будет прекращена. По прошествии нескольких лет останутся только «выжившие» взаимные фонды, отличающиеся впечатляющей доходностью. И тут появляется потенциальный инвестор в вашем лице. Вам демонстрируют показатели фондов компании, превышающие рыночные на протяжении нескольких лет подряд.

Вы бы инвестировали в них свои средства?

Возможно. Компании отказываются от плохих активов, что по своей сути совсем не плохо. Плохо – делать вид, что плохих активов никогда и не существовало, поскольку это создает предвзятость. В этом примере вам не были представлены данные о низкодоходных фондах, потому что компания от них отказалась. Из-за этого результаты деятельности компании показались вам более впечатляющими и заставили вас поверить в то, что в ней работают опытные финансовые аналитики, тогда как наиболее правдоподобное объяснение – простое везение.

Это пример систематической ошибки выжившего, которая представляет собой «разновидность систематической ошибки отбора, когда по одной группе объектов (условно называемых «выжившие») данных много, а по другой («погибшие») – практически нет»[140].

Классический пример систематической ошибки выжившего – случай статистика Абрахама Вальда, которому было поручено минимизировать потери флота бомбардировщиков союзников во время Второй мировой войны. Самолеты, пережившие жестокие бои, возвращались на базу с серьезными повреждениями и пулевыми отверстиями в фюзеляже и крыльях. Изначально идея заключалась в том, чтобы укрепить те места самолетов, в которых наблюдалось больше всего повреждений. Однако Вальд посчитал ее проявлением ошибки выжившего. Дело в том, что во внимание принимались только вернувшиеся самолеты. Но как быть с теми, которые не смогли вернуться? Что этот характер повреждений говорит о них?

Рекомендация Вальда казалась парадоксальной: он предложил бронировать те участки, которые имели наименьшие повреждения у вернувшихся самолетов. Почему? Потому что самолеты, получившие повреждения в этих местах, так и не вернулись на базу.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных