В последней главе мы остановимся на основных трендах будущего в области управления данными. Важно отметить, что это не визионерский взгляд, а квинтэссенция того, о чем мы говорили на страницах нашей книги. Но перечисления последних трендов мало, мы пошли чуть дальше – рассказав об основных тенденциях (наука о данных, искусственный интеллект, машинное обучение и интернет вещей), мы покажем на ряде примеров, как управление данными влияет на вполне конкретные области человеческой жизнедеятельности – медицину, логистику, транспорт, сельское хозяйство, природопользование, промышленность, жилищно-коммунальное хозяйство. Таким образом, из «космоса» (дальние перспективы) мы вернемся назад в «атмосферу» (что будет использоваться в самое ближайшее время).
18.1. Основные тренды на ближайшую перспективу
Сейчас много внимания уделяется искусственному интеллекту (ИИ), причем в различных его проявлениях – от роботизации до машинного зрения и автоматизированного принятия решений. Ученые много лет пытаются научить машины «думать, как люди», в результате чего возникло машинное обучение, основанное на огромных массивах данных, которые нужно «должным образом подать и приготовить» для машины/алгоритма, чтобы она обучалась, а потом «подавать» еще, чтобы скорректировать ее работу и т. д. Это отдельная быстроразвивающаяся область, где сейчас особое внимание уделяется вопросам стабильности и адаптации алгоритмов машинного обучения к внезапным изменениям потоков данных, к возможным ошибкам данных или же нетипичным ситуациям, т. е. таким, к которым машину «не приучили». За примерами далеко ходить не надо – пандемия COVID-19 изменила многие устои, к которым мы привыкли (а значит, так и обучили машинные алгоритмы). Появилось большое количество отраслей, которые начали свою коренную перестройку. Об этих отраслях мы подробнее расскажем чуть дальше. И здесь снова мы видим возрастающую роль данных – все уходит в онлайн, все больше сфер пытаются автоматизировать и роботизировать, чтобы избежать человеческого участия, все больше появляется массивов данных, доступных для различного анализа.
Интересный технологический тренд – распределенное хранение данных и параллельные вычисления. Все эти возрастающие массивы информации необходимо хранить, а вычислений становится больше. Понятно, что традиционные ИТ-гиганты выпускают больше дисков и систем хранения данных, способных вмещать все больше данных, а также еще более производительные процессоры, которыми наполняют мощные сервера. Но эта гонка не может продолжаться бесконечно. А как же все купленное три-пять лет назад? У многих из нас остались старые компьютеры и смартфоны. Именно здесь и сейчас наука серьезно занимается вопросами о том, как разместить данные децентрализованно и соединить их в нужный момент (здесь роль метаданных и управления ими особенно важна для распределенных хранилищ), как использовать простаивающие вычислительные мощности для необходимых вычислений и какие из них могут быть распараллелены с учетом нахождения данных для этих вычислений. Прослеживается четкая синергия с машинным обучением.
18.1.1. Дальнейшее развитие науки о данных
О науке о данных мы уже говорили. Это наука о методах анализа данных и извлечения из них ценной информации, знаний. Она тесно переплетена с такими областями как машинное обучение, наука о мышлении (cognitive science) и, конечно, с технологиями работы с большими данными. В свою очередь, большие данные – это огромные объемы неструктурированной информации: например, метеоданные за какой-то период, статистика запросов в поисковых системах, результаты спортивных состязаний, базы данных геномов микроорганизмов и многое другое. Для работы с такими данными используют математическую статистику и методы машинного обучения. Итог работы ученого по данным– прогнозная модель, некий программный алгоритм, который находит оптимальное решение поставленной задачи. Стоит отметить, что незаменимый помощник ученого по данным – специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы.
В науке о данных слились воедино консервативные стратегические подходы, предметный анализ, приемы поиска шаблонов и аномалий данных, а также те алгоритмы поиска совпадений, нормализации, которые упоминались на страницах этой книги.