Атрибут – это характеристика сущности, позволяющая ее идентифицировать, описать или измерить. На физическом уровне атрибуту сущности может соответствовать столбец, поле, тег или узел в таблице, представлении, документе, графе или файле.
На рисунке 11.7 представлены сущности с описывающими их атрибутами (на примере реляционной модели данных). Сущность «Организация» имеет атрибуты «ИНН организации», «Наименование» и «Номер телефона». Сущность «Сотрудник» имеет атрибуты «Номер сотрудника», «Имя», «Фамилия» и «Дата рождения». Сущности «Иждивенец» и «Должность» имеют атрибуты, отражающие их основные характеристики.
* Sebastian-Coleman L. Navigating the Labyrinth: An Executive Guide to Data Management, First Edition. Technics Publications, 2018.
На представленной диаграмме атрибуты «ИНН организации», «Номер сотрудника» и «Номер должности» являются первичными ключами соответствующих сущностей. Ключом называют атрибут или набор атрибутов, уникальным образом определяющий экземпляр сущности. Поскольку в общем случае вариантов ключей (так называемых потенциальных ключей) может быть несколько, то один из них выбирается в качестве фактического уникального идентификатора экземпляра – первичного ключа. В сущности «Сотрудник» и «Иждивенец» для организации связей с другими сущностями (расположенными на диаграмме над ними) добавлены так называемые внешние ключи. Атрибут (или набор атрибутов) сущности, который является внешним ключом, предназначен для хранения значения первичного ключа другой сущности. У каждого экземпляра сущностей «Сотрудник» и «Иждивенец» значение внешнего ключа должно совпадать со значением первичного ключа одного из экземпляров соответствующих связанных сущностей.
Домен
Отметим, что в моделировании данных доменом обычно называется исчерпывающим образом описанный набор, диапазон или множество значений, которые могут быть присвоены атрибуту. В свою очередь, определение домена – одно из средств стандартизации характеристик атрибутов. Например, домен «Дата», включающий все допустимые значения календарных дат, может задаваться для любого атрибута датировки в логической модели и для любых столбцов/полей дат в физической модели данных, таких как:
● дата_приема_на_работу;
● дата_поступления_заказа;
● дата_рекламации;
● дата_начала_занятий.
Домены важны для понимания качества данных. Все значения, входящие в домен, являются допустимыми значениями. Те, которые выходят за его границы, – недопустимы. Домен для атрибута «дата_приема_на_работу» может быть определен просто как действительные даты. Согласно этому правилу, он, например, не включает 30 февраля любого года.
* DAMA. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)
11.2.5. Контекстная диаграмма области знаний и уровни зрелости функции «Моделирование и проектирование данных»
Контекстная диаграмма области знаний «Моделирование и проектирование данных» представлена на рисунке 11.8.
Аналитики данных, разработчики моделей и баз данных выступают в роли посредников между потребителями информации (теми, кто определяет нужды бизнеса в данных) и производителями данных (теми, кто фиксирует данные в пригодной для использования форме). Профессионалы в области данных должны обеспечивать искомый баланс при учете требований к данным от потребителей информации и требований к приложениям от производителей данных.
Но и профессионалы, работающие в области данных, также должны обеспечивать баланс – причем с учетом краткосрочных и долгосрочных интересов бизнеса. Потребителям информации нужны актуальные данные для выполнения своих обязанностей по текущему управлению бизнесом и реализации возможностей. Команды проектов по созданию систем должны укладываться в заданные временные и бюджетные рамки. Они должны учитывать интересы всех заинтересованных сторон, обеспечивая размещение данных организации в безопасных и надежных хранилищах, защищенных системами резервного копирования и обеспечивающих совместный доступ к данным и их повторному использованию, а также корректность, актуальность, релевантность и максимальное удобство использования данных с точки зрения пользователей. Именно поэтому модели и проектные решения по организации базы данных должны быть разумно сбалансированы таким образом, чтобы учитывать как краткосрочные, так и долгосрочные нужды организации.
На рисунке 11.9 представлены обобщенные характеристики уровней зрелости функции «Моделирование и проектирование данных».
11.2.6. Влияние на ценность данных
Вполне осязаемые результаты правильного моделирования данных: снижение затрат на поддержку, расширение возможности повторного использования моделей при проведении в жизнь будущих инициатив, минимизация затрат на создание новых приложений.