Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

<p>Больше данных — лучше результат</p>

Аналитикам, которые работают с обычными выборками, трудно свыкнуться с беспорядочностью, которую они всю жизнь стремились предотвратить или искоренить. Статистики используют целый комплекс стратегий в целях снижения частоты появления ошибок при сборе выборок, а также для проверки выборок на наличие потенциальных систематических ошибок перед объявлением результатов. Этот комплекс стратегий включает в себя сбор выборок, который осуществляется специально обученными специалистами в соответствии с точным протоколом. Реализация стратегий, направленных на сокращение числа ошибок, — дорогостоящее удовольствие, даже при ограниченном количестве точек данных. Что немаловажно, эти стратегии становятся невозможными в случае сбора данных в полном объеме — не только из-за чрезмерной стоимости, но и потому, что при таком масштабе вряд ли удастся равномерно соблюсти строгие стандарты сбора. И даже исключение человеческого фактора не решило бы проблему.

Двигаясь в сторону больших данных, мы будем вынуждены изменить свое представление о преимуществах точности. Пытаясь мыслить привычными категориями измерений в цифровом взаимосвязанном мире ХХІ века, мы упускаем важный момент. Одержимость точностью — не более чем артефакт аналогового мира, находящегося в информационной изоляции, где данные поистине были редкостью. На тот момент измерение каждой точки данных было крайне важно для результата, поэтому большое внимание уделялось тому, чтобы не допускать в анализе систематические погрешности.

В наше время нет такого дефицита информации. При переходе на всеобъемлющие наборы данных, которые охватывают всё или почти всё рассматриваемое явление, а не только его мизерную часть, нам уже не приходится беспокоиться об отдельных точках данных, привносящих в анализ систематические погрешности. Вместо того чтобы искоренять каждый неточный бит (что со временем обходится все дороже), мы выполняем вычисления, принимая во внимание беспорядочность.

Возьмем для примера беспроводные датчики, внедряемые на производстве. По всей территории нефтеперерабатывающего завода BP Cherry Point в Блейне (Вашингтон) расставлены беспроводные датчики, образующие невидимую сеть, которая производит огромные объемы данных в режиме реального времени. Неблагоприятные окружающие условия — сильная жара и электрические механизмы — могут время от времени искажать показания, приводя к беспорядочности данных. Но огромное количество поступающей информации компенсирует эти трудности. Измеряя нагрузку на трубы непрерывно, а не через определенные промежутки времени, компания BP выяснила, что некоторые виды сырой нефти более едкие, чем другие. Прежде это не удавалось определить, а значит, и предотвратить.[50]

Получая огромные массивы данных нового типа, в некоторых случаях можно пренебречь точностью, если удается спрогнозировать общие тенденции. Мы живем как раз в условиях такого парадокса. Небольшой магазин может подсчитать прибыль к концу дня вплоть до копейки, но мы не стали бы (да и не смогли бы) проделывать то же самое с ВВП страны. В условиях перехода к большим масштабам меняется не только ожидаемая степень точности, но и практическая возможность ее достижения. Отношение к данным как к чему-то несовершенному и неточному (пусть поначалу и вопреки логике) дает возможность делать всеобъемлющие прогнозы, а значит, лучше понимать окружающий мир.

Получается, что беспорядочность не является неотъемлемой частью больших данных как таковых. Она скорее результат несовершенства инструментов, которые мы используем для измерения, записи и передачи информации. Если бы технологии вдруг стали совершенными, проблема неточности исчезла бы сама собой. Беспорядочность — не внутренняя характеристика больших данных, а объективная реальность, с которой нам предстоит иметь дело. И, похоже, она с нами надолго. Как правило, кропотливое повышение точности нецелесообразно с экономической точки зрения, поскольку польза от гораздо большего количества данных выглядит более убедительно. Происходит смещение центра внимания, как и в предыдущую эпоху, когда специалисты по сбору статистики отказались от наращивания размеров выборки в пользу увеличения случайности. Теперь же мы готовы мириться с незначительными неточностями в обмен на дополнительные данные.

В рамках проекта Billion Prices Project[51] можно найти занимательный пример. Каждый месяц американское Бюро статистики труда публикует индекс потребительских цен (ИПЦ), который используется для расчета уровня инфляции. Эти цифры крайне важны для инвесторов и компаний. Федеральная резервная система учитывает ИПЦ при решении вопроса о повышении или понижении процентных ставок. Основной оклад компаний увеличивается с поправкой на инфляцию. Федеральное правительство учитывает величину оклада при расчете пособий (таких как пособие по социальному обеспечению), а также процента, выплачиваемого по некоторым облигациям.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии