В этой вводной главе мы, прежде всего, определимся с тем, что же такое революция больших данных, и ее основными понятиями, рассмотрим примеры их применения и возрастающее влияние на экономику. Те, кто каким-то образом не слышал о больших данных, сможет понять, в чем заключается их сущность, а более продвинутым читателям важно будет точно определиться с ключевыми понятиями новой революции — «информацией», «данными», «материальными предпосылками революции».
Революция как процесс
О больших данных сегодня очень много пишут и говорят в самых разных контекстах. В наши дни практически любой человек ежедневно сталкивается с большими данными — они исправляют наши опечатки в поисковой строке или текстовом редакторе, автоматически переводят текст, предлагают оптимальных партнеров на сайтах знакомств, с удивительной точностью предсказывают погоду, показывают оптимальный маршрут до дома, позволяют рационализировать производство, предвидеть и предотвратить заболевания... Несмотря на то, что сам термин «большие данные» в академической среде использовался и раньше, широкое распространение он стал получать начиная с 2008 года, а уже в 2011 году большинство крупных производителей информационных технологий, таких как Microsoft, Oracle, IBM, использовали это понятие в своих концепциях и исследованиях'. Суть его сводится к тому, что современные технологии по сбору, обработке и хранению данных достигли небывалых высот, благодаря чему анализ данных путем нахождения скрытых корреляций и закономерностей позволяет открывать новые, неочевидные на относительно малых объемах данных факты. Кроме того, большие данные позволяют рассматривать исследуемые процессы более конкретно, на уровне тысяч или даже миллионов мельчайших взаимодействий, подобно тому, как при помощи микроскопа можно рассматривать крохотные элементы веществ, невидимые невооруженным глазом.
Поясним, что под характеристикой «малые/боль-шие» понимается не только физический объем самих данных, но и их вариативность и многообразие, скорость их прироста и возможности обработки.
При этом нельзя точно сказать, где заканчиваются малые данные и в какой момент они становятся большими. Является ли миллион отдельных показателей малыми данными, а два миллиона уже большими? Или, может быть, большие данные — это только те, которые измеряются терабайтами, для обработки которых требуются суперкомпьютеры и продвинутый искусственный интеллект, а простой структурный анализ уже невозможен?
Посмотрев на происходящую революцию, связанную с резким увеличением данных, исторически, с высоты сотен и тысяч лет, мудрый читатель заметит, что люди испокон веков собирали и обрабатывали данные, пытаясь познать и подчинить себе окружающий мир.