Древние люди держали все собранные знания в голове, передавая важнейшие из них через различные табу, сказания и наскальные рисунки. В Месопотамии для хранения данных использовали глиняные таблички, а в Египте— папирус. Постепенное накопление данных и совершенствование способов их сохранения оказывали не последнее влияние на становление таких общественных институтов, как религия, государство, наука. С течением времени человечество собирало все больше данных и стремилось извлечь из них максимальную пользу. От ранних веков до нового времени и наших дней разнообразные разведки и статистические службы старательно занимались сбором всевозможных данных — начиная с подсчета количества овса, потребного для кавалерии, и заканчивая перлюстрацией любой личной переписки, до которой могли дотянуться. Данные накапливались до того объема, чтобы называться «большими», и в докомпьютерную эпоху даже анализировались без помощи искусственного интеллекта. Так, авторы бестселлера «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» приводят в пример Мори Мэтью Фонтейна, служившего руководителем Картографического департамента ВМС США: исследовав старые, десятилетиями пылившиеся на складе корабельные книжки и дополнив их данными из формы, заполняемой вновь прибывшими кораблями, он еще в первой половине XIX века составил фундаментальную карту морского пространства, позволяющую капитанам судов экономить сотни часов и дней своих плаваний, используя наиболее оптимальные маршруты с учетом течений и ветров2. В массовости данных также нет ничего нового — еще в 1924 году у Евгенического учетного бюро в Колд-Спринг-Харбор было более 750 000 записей, описывающих «врожденные физические, умственные и темпераментные свойства» американских семей3. Или же другой пример — применение больших данных в спорте. Много говорят о том, что победа профессиональной спортивной команды сегодня — это во многом победа стоящей за ее спиной команды математиков4. Анализ игры, поведения соперников, многочисленных разнообразных показателей позволяет спортсменам существенно улучшить результат и добиться успеха. Впрочем, подобные методы в большом спорте применялись в Советском Союзе как минимум с семидесятых годов прошлого века5.
Можно привести еще много примеров того, как накопленное количество информации, ее разнообразие и скорость обработки в один момент позволяли извлекать из нее новые качественные свойства. Периодическое перетекание количества в качество есть свойство информации.
Невозможно сказать, когда точно заканчиваются «малые» данные и начинаются «большие». В некоторых отраслях, где ранее невозможно было без огромного труда собрать и записать данные, теперь благодаря современным технологиям такая возможность появилась, а их даже относительно небольшой объем порой дает потрясающий результат и описывается в публикациях и статьях в качестве примера использования технологии «больших данных». В иных же сферах объем может исчисляться терабайтами и миллиардами записей — и также хранить в себе скрытые качества. Но даже это не значит, что революция больших данных для них уже пройдена: дальнейший рост объемов, вариативности и возможностей по обработке данных рано или поздно откроет их владельцам новые полезные факты, не очевидные при анализе данных меньшего количества. Например, внедрение банком HSBC системы анализа хранящихся у него больших данных (денежных транзакций, геоданных, поведения клиентов и т.д.) за первые же две недели выявил криминальные группы и мошеннические схемы более чем на 10 миллионов долларов6.
Как уже говорилось, это является лишь этапом перетекания количества информации в качество — с увеличением объема данных (а также их количества, вариативности, точности, скорости обработки) из них можно будет извлекать все больше новой информации. В какой-то момент «большие данные» могут стать «очень большими данными», а потом «очень-очень большими» и так далее — их «размер» ограничивают лишь возможности сбора и обработки, определенные рамками технологического прогресса той или иной исторической эпохи.
В наше время созрели материальные предпосылки для целой революции больших данных. Кардинально сократилось историческое время, требуемое для перехода количества информации в качество. Революция больших данных, начавшаяся на наших глазах, состоит из множества качественных скачков перетекания «малых данных» в «большие» (а тех, что уже «большие», рано или поздно в «очень большие» и так далее) и приобретения ими новых полезных качеств. Говоря о трактовке определения больших данных, современных людей иногда сравнивают с индейцами племени пихара, живущих в лесах Бразилии. Они используют всего три числительных: одно означает «один-два», другое — «несколько», а третье — «много» или «гораздо больше».