Читаем Разберись в Data Science полностью

И все же, если поразмыслить, становится очевидно, что некоторые фундаментальные предположения были неверны. В первую очередь речь идет о допущении независимости между возможными дефолтами, то есть предположении о том, что если заемщик А не выполнит обязательства по кредиту, это не повлияет на риск неплатежа заемщика Б. Впоследствии мы узнали о том, что дефолты происходят по принципу домино, то есть предыдущий дефолт может предсказать вероятность дальнейших дефолтов. Дефолт по одному ипотечному кредиту приводил к снижению стоимости находящейся поблизости недвижимости, что способствовало росту риска дефолта по соответствующим кредитам. По сути, один дом утягивал за собой соседние.

Допущение независимости фактически связанных между собой событий – распространенная ошибка в статистике.

Но давайте углубимся в эту историю. Инвестиционные банки создали модели, которые переоценили эти инвестиции. Модели, о которых мы поговорим далее в книге, – это упрощенные версии реальности. Они используют предположения о реальном мире для понимания и предсказания определенных явлений.

А кто создавал эти модели? Это были люди, которые заложили основы будущей профессии дата-сайентиста. Люди вроде нас. Статистики, экономисты, физики – люди, которые занимались машинным обучением, искусственным интеллектом и статистикой. Они работали с данными. И они были умны. Невероятно умны.

И все же что-то пошло не так. Может быть, они не сумели задать правильные вопросы? Или информация о риске и неопределенности не была должным образом донесена до лиц, принимающих решения, в результате чего у них возникла иллюзия совершенно предсказуемого рынка недвижимости? А может быть, кто-то откровенно соврал о результатах?

Но больше всего нас интересовало то, как избежать подобных ошибок в нашей собственной работе?

У нас было много вопросов, и об ответах мы могли лишь гадать, но одно было ясно – это была крупномасштабная катастрофа с данными. И она обещала быть не последней.

<p><emphasis>Всеобщие выборы в США 2016 года</emphasis></p>

8 ноября 2016 года кандидат от республиканцев Дональд Дж. Трамп победил на всеобщих выборах в Соединенных Штатах, обойдя предполагаемого лидера и кандидата от демократической партии Хиллари Клинтон. Для политических социологов это стало настоящим шоком, поскольку их модели не предсказывали его победу. А год был самым подходящим для подобных предсказаний.

В 2008 году Нейт Сильвер, автор блога FiveThirtyEight, тогда бывшего частью газеты The New York Times, проделал фантастическую работу и предсказал победу Барака Обамы. В то время эксперты скептически относились к способности его алгоритма прогнозирования точно предсказывать результаты выборов. В 2012 году Нейт Сильвер снова оказался в центре внимания, предсказав очередную победу Обамы.

К этому моменту деловой мир уже начал осваивать работу с данными и нанимать дата-сайентистов. Успешное предсказание переизбрания Барака Обамы Нейтом Сильвером лишь подчеркнуло важность и оракулоподобные возможности прогнозирования на основе данных. Статьи в деловых журналах предостерегали руководителей о том, что если они не освоят работу с данными, то проиграют в конкурентной борьбе. Промышленный комплекс науки о данных заработал в полную силу.

К 2016 году каждое крупное новостное издание вложило средства в алгоритм предсказания исхода всеобщих выборов. Подавляющее большинство из них прогнозировали сокрушительную победу кандидата от демократической партии Хиллари Клинтон. Как же они ошибались.

Давайте сравним эту ошибку с кризисом субстандартного ипотечного кредитования. Можно было бы утверждать, что мы многому научились и что интерес к науке о данных должен был бы позволить избежать ошибок прошлого. Действительно, начиная с 2008 года, новостные организации стали нанимать дата-сайентистов, вкладывать средства в проведение опросов общественного мнения, формировать команды аналитиков и тратить большое количество денег на сбор качественных данных.

Что же произошло, учитывая все это время, деньги, усилия и образование?[4]

<p><emphasis>Наша гипотеза</emphasis></p>

Почему возникают подобные проблемы с данными? Мы видим три причины: сложность проблемы, недостаток критического мышления и плохая коммуникация.

Во-первых (как мы уже говорили), работа с данными зачастую очень сложна. Даже при наличии большого количества данных, подходящих инструментов, методик и умнейших аналитиков случаются ошибки. Прогнозы могут и будут оказываться ошибочными. И это не критика данных и статистики. Такова реальность.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных