Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Мы склонны думать, что статистическая выборка — это своего рода непреложный принцип (такой, как геометрические правила или законы гравитации), на котором основана цивилизация. Однако эта концепция появилась менее ста лет назад и служила для решения конкретной задачи в определенный момент времени при определенных технологических ограничениях. С тех пор эти ограничения весьма изменились. Стремиться к случайной выборке в эпоху больших данных — все равно что хвататься за хлыст в эпоху автомобилей. Мы можем использовать выборки в определенных обстоятельствах, но они не должны быть (и не будут) доминирующим способом анализа больших наборов данных. Все чаще мы можем позволить себе замахнуться на данные в полном объеме. 

<p>Глава 3</p><p>Беспорядочность</p>

Число областей, в которых можно использовать все имеющиеся данные, неуклонно растет, однако увеличение количества приводит к неточности. В наборы данных всегда закрадывались ошибочные цифры и поврежденные биты. Эту проблему следует попытаться решить хотя бы потому, что это возможно. Чего нам никогда не хотелось, так это мириться с такими ошибками, считая их неизбежными. В этом и состоит один из основных переходов от малых данных к большим.

В мире «малых данных» сокращение количества ошибок и обеспечение высокого качества данных становились естественным и необходимым толчком к поиску новых решений. Поскольку собиралась лишь малая часть информации, мы заботились о том, чтобы она была как можно более точной. Поколения ученых оптимизировали свои инструменты, добиваясь все большей точности данных, будь то положение небесных тел или размер объектов под микроскопом. В мире, где правили выборки, стремление к точности принимало характер одержимости, сбор лишь ограниченного числа точек данных неминуемо вел к распространению ошибок, тем самым снижая точность общих результатов.

На протяжении большей части истории наивысшие достижения человека были связаны с завоеванием мира путем его измерения. Одержимость точностью началась в середине ХІІІ века в Европе, когда астрономы и ученые взяли на вооружение как никогда точную количественную оценку времени и пространства — «меру реальности», выражаясь словами историка Альфреда Кросби.

Негласно считалось, что, если измерить явление, его удастся понять. Позже измерения оказались привязанными к научному методу наблюдения и объяснения — способности количественно измерять воспроизводимые результаты, а затем записывать и представлять их. «Измерить — значит узнать», — говорил лорд Кельвин. И это стало основным постулатом. «Знание — сила», — поучал Фрэнсис Бэкон. В то же время математики и те, кто позже стал актуарием или бухгалтером, разработали методы, которые сделали возможным точный сбор и регистрацию данных, а также управление ими.[38]

К ХІХ веку во Франции (в то время ведущей стране в мире по уровню развития науки) была разработана система строго определенных единиц измерения для сбора данных о пространстве, времени и не только. Другие страны перенимали эти стандарты. Дошло до того, что признанный во всем мире эталон единиц измерения стал закрепляться в международных договорах. Это явилось вершиной эпохи измерений. Лишь полвека спустя, в 1920-х годах, открытия в области квантовой механики навсегда разрушили веру в возможность достичь совершенства в измерениях. Тем не менее, не считая относительно небольшого круга физиков, инженеры и ученые не спешили расставаться с мыслью о совершенстве измерений. В деловой сфере эта идея даже получила более широкое распространение, по мере того как рациональные науки — математика и статистика — начали оказывать влияние на все области коммерческой деятельности.

Между тем множатся ситуации, в которых неточность воспринимается скорее как особенность, а не как недостаток. Взамен снижения стандартов допустимых погрешностей вы получаете намного больше данных, с помощью которых можно совершать новые открытия. При этом действует принцип не просто «больше данных — какой-то результат», а, по сути, «больше данных — лучше результат».

Перейти на страницу:

Похожие книги