Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Если основой современного промышленного развития является ископаемое топливо, то данные сегодня – это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.

Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника – по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.

В значительной степени революция данных была связана с данными наблюдений. В главе 2 мы познакомились с этим видом данных, описывающих естественную эволюцию процессов без явного вмешательства человека, и, как было показано, данные наблюдений особенно уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с экспериментальными данными, подразумевающими, что параметры воздействующих факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются автоматическими системами сбора информации и являются побочным эффектом различных административных операций.

Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике»[166]. Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».

Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен» позволяет обновлять индекс инфляции ежедневно.

Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и не берем в расчет магазины, торгующие только онлайн (такие, как Amazon.com[167]. Они отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего лишь ценами и не показывают объемы продаж.

Дело не в том, что все это – непреодолимые препятствия. Понимая их, мы можем работать над их преодолением. Но проблема темных данных все равно останется, поскольку само понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается от традиционных определений.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика