Стоит отметить, что бизнес-лидеры не всегда понимают ценность отдельно взятых решений по работе с метаданными.
Это какая-то малопонятная область работы и применения ресурсов, и не всегда ясно, зачем на это нужно тратить время. Надеюсь, что пример с чертежами зданий и новые фильмы по аналогии с «Аноном» позволяют раскрыть потенциал метаданных. Моделей монетизации таких решений очень мало.
Например, при расчете себестоимости функции работы с данными как сервиса, я использовал исследования Калифорнийского университета, где была приведена модель затрат и ценообразований функции использования данных. В этом отношении я мыслил достаточно просто – нужно было продавать именно данные как сервис, а работу с метаданными сделать обязательным компонентом себестоимости этого сервиса. Сервисная модель работы с данными – относительно новое явления для бизнеса, так как большинство лидеров для тех или иных задач выделяют ресурсы напрямую.
Сервисная модель предоставления данных – это отражения новой идеологии, постепенной захватывающей новые ниши в различных секторах экономики. Эта идеология называется концепцией единого цикла, – конечному клиенту предоставляется не сам продукт, а результаты работы этого продукта как сервис. Можно не покупать автомобиль, а платить за эффективный километр. Так и здесь. Нет смысла продавать сложную инфраструктуру, нужно предложить сервис доступа и получения данных.
Сервисы работы с метаданными можно также выделить в отдельный сервис для поддержки работы и обучения нейронных сетей. С другой стороны, с использованием метаданных можно сделать отличный сервис по получению и сбору данных из различных источников, так называемые краулеры[118] для создания хабов данных. Такие краулеры помогают собирать различные данные из сложно структурированных источников, таких как сайты, сложные файлы, внешние хранилища и другие.
Из метаданных выстраиваются те самые связи, благодаря которым герои фильма «Анон» могли перемещаться между различными источниками данных. Вспоминая этот фильм, я в первую очередь представляю объем работы, которую проделало человечество, чтобы связать источники данных, сделать сложно иерархические структуры, эффективно применяющие алгоритмы быстрого поиска.
Но, с другой стороны, именно метаданные становятся тем самым уязвимым местом в системе, если за ним никто не присматривает. Хакеры могут использовать эти данные для получения незаконного доступа, а проблемы с качеством могут поставить крест на важнейших исследованиях для человечества.
Все так красиво и понятно. Строить здания без чертежей – как бы неправильно, но что же делать со всей существующей инфраструктурой, где место для метаданных могло быть не заложено вовремя в виду тех самых коммуникационных сложностей?
Необходимо искать нестандартные пути и решения, потому что эффективное управление информационным ландшафтом – это ключевой вызов сегодняшнего дня, на который крупному бизнесу еще предстоит ответить.
Глава 6
Зачем нужно качество данных?
Раз вы добрались до этой главы, тяга к новым знаниям дарована вам природой или же воспитана в суровых сибирских условиях.
Тема качества данных лично меня коснулась не сразу. Работая в команде вышколенных аудиторов – выпускников лучших ВУЗов страны, мы привыкли опираться на свое мнение: делать выводы на основании данных, документировать и предоставлять описание своих ключевых суждений, которые ложились в основу аудиторского заключения.
Вот ты приходишь в банк, и тебе дают на руки выгрузку из проводок оборотно-сальдовой ведомости – это такая большая табличка с остатками и оборотами, где находится все на свете. И обычно аудиторы сбивают сначала оборот и остаток по оборотно-сальдовой ведомости с тем, что есть на счетах в отчетности, которую банки публикуют и отправляют в Центральный банк Российской Федерации.
Итак, вот мне сгружают тонну данных – это примерно несколько миллионов записей. В то время Excel еще не умел работать с такими количествами, это уже после он смог анализировать четыре миллиона записей. Приходилось разбирать этот большой объем данных на части.
Каждому аудитору доверяли какую-то конкретную секцию. Если смотреть на финансовую отчетность, то секция – это один ее раздел. Надеюсь, вам удавалось хоть раз на нее взглянуть. Если нет, взгляните для примера на публикуемую отчетность по МСФО[119] любой российской компании или банка, например ВТБ, она, кстати, отличается от остальных тем, что ее составляют в миллиардах рублей. ВТБ был одним из первых банков, которые перешли на выпуск отчетности в миллиардах рублей. Сегодня не так много компаний могут этим похвастаться.
Что это значит в практическом плане? В первую очередь это, конечно же, размер потенциальной ошибки. Раньше у аудиторов была проблема с одной частой ошибкой при подготовке отчетности – с округлением.