Взаимосвязь между данными и информацией намного сложнее, чем может показаться. Сами по себе данные, как набор байтов, не имеют никакого смысла, но те же данные, поставленные в контекст, превращаются в информацию. Роберт Сейнер (Robert Seiner), один из ведущих специалистов по работе с данными, издатель бюллетеня The Data Administration Newsletter (TDAN.com) дал следующее определение: «Данные плюс метаданные равняется информация» (
Рассел Аккофф (Russell Ackoff, 1919–2009), специалист в области исследования операций и теории систем предложил четырехуровневую иерархическую модель (четырехзвенную модель) DIKW (data, information, knowledge, wisdom), связывающую данные, информацию, знания и здравый смысл, основанный на глубоком познании.
• Данные (data) получаются из внешнего мира в результате человеческой деятельности с использованием тех или иных устройств.
• Информация (information) создается посредством анализа отношений и взаимосвязей между фрагментами данных в результате ответа на вопросы: Кто? Что? Где? Сколько? Когда? Почему? Цель анализа – помещение данных в контекст.
• Знания (information) получаются в результате синтеза полученной информации с человеческим разумом, служат для приятия решений, ведущих к достижению заданных целей.
• Глубокое понимание (wisdom) служит основой для принятия решений.
Практически все, что называют умственным трудом, укладывается в пирамиду DIKW – работающий в этой сфере получает данные из внешнего мира, извлекает из них информацию, осмысливает ее переводит в знания и выбирает те знания, которые требуются для принятия решений.
Данные и наука о данных
Интерес к данным привел к созданию того, что назвали Data Science. И с этим термином возникают сложности перевода, в данном случае это вопрос, как быть со словом science. Есть классическое русское определение науки как области человеческой деятельности, направленной на выработку и систематизацию объективных знаний, но Data Science – это не классическая наука со всеми ее необходимыми атрибутами. Однако в английском для science есть и «система получения знаний» (system of acquiring knowledge) и «знания, полученные из практики» (knowledge attained through study or practice), то есть Data Science стоило бы перевести как получение знаний из данных. Но это звучит нескладно, поэтому остановимся просто на DS.
Авторами современной концепции DS считают двух статистиков: Уильяма Клевеланда (William Cleveland,1943) и Лео Бреймана (Leo Breiman, 1928–2005). Первый в 2001 году опубликовал статью «Data science: план действий для расширения области действия статистики» (