Обратите внимание на то, что эта таблица содержит строки и столбцы, которые играют определенные роли в процессе интерпретации ее содержимого. Каждая горизонтальная строка таблицы представляет собой измеренный экземпляр связанной информации. В данном случае – информации о маркетинговой кампании. Каждый вертикальный столбец таблицы представляет собой список интересующих нас фрагментов информации, имеющих общую кодировку, что позволяет нам сравнивать экземпляры между собой.
Строки подобных таблиц обычно называются наблюдениями, записями, кортежами или испытаниями. Столбцы в наборах данных часто называются признаками, полями, атрибутами, предикторами или переменными.
Работа с данными ведется во множестве предметных областей, в каждой из которых используется профессиональный сленг, поэтому для одних и тех же вещей существует несколько названий. Одни специалисты по работе с данными могут называть столбцы в наборе данных «признаками», а другие – «переменными» или «предикторами». Поэтому главному по данным важно уметь ориентироваться в предпочтениях разных групп.
Табл. 2.1. Пример набора данных о рекламных расходах и прибыли
Точка данных – это место пересечения наблюдения и признака. В данном случае примером точки данных является
Таблица 2.1 имеет заголовок (фрагмент нечисловых данных), который помогает нам понять, что означает каждый признак. Обратите внимание, что строка заголовка не обязательна. В таких случаях заголовок подразумевается, и человек, работающий с набором данных, должен знать, что означает каждый из признаков.
Типы данных
Существует множество способов кодирования информации, однако специалисты по работе с данными используют несколько видов кодировки для хранения информации и передачи полученных результатов. Два наиболее распространенных типа данных – числовые и категориальные.
Числовые данные в основном состоят из чисел, но могут включать дополнительные символы для обозначения единиц. К категориальным данным относятся слова, символы, фразы и (как ни странно) иногда числа – например, почтовые индексы. И числовые, и категориальные данные делятся на дополнительные подкатегории.
Существуют два основных типа числовых данных:
– Непрерывные данные могут принимать любое значение в некотором числовом диапазоне. Они представляют собой принципиально неисчисляемый набор значений. Возьмем, к примеру, погоду. Температура воздуха на улице, преобразованная в данные, будет представлять собой непрерывную переменную. Допустим, она составляет 65,62 градуса по Фаренгейту (18,67 °C). Местная новостная станция может передать это значение как 65 °F (18 °C), 66 °F (19 °C) или 65,6 °F (18,7 °C).
– Счетные (или дискретные) данные, в отличие от непрерывных, ограничивают точность целым числом. Например, количество автомобилей, которыми вы владеете, может быть равно 0, 1, 2 и так далее, но не 1,23. Это отражает основополагающую реальность измеряемой вещи[10].
Категориальные данные также делятся на два основных типа:
– Упорядоченные (или порядковые) данные – это категориальные данные, которым присущ определенный порядок. Такие данные используют, например, организаторы опросов, когда предлагают вам оценить свой опыт по шкале от 1 до 10. Хотя эти данные напоминают счетные, мы не можем приравнять разницу между оценками 10 и 9 к разнице между 1 и 0. Разумеется, порядковые категориальные данные не обязательно кодировать в виде чисел. Например, размер рубашки относится к порядковым данным, но его можно закодировать с помощью слов: маленький, средний, большой, очень большой.
– Неупорядоченные (или номинальные) категориальные данные не имеют присущего им порядка. Например, табл. 2.1 содержит признак «Медиа» со значениями «Печать», «Интернет» и «Телевидение». Другие примеры номинальных переменных – ответы «Да» и «Нет», а также принадлежность к демократической или республиканской партии. Порядок их перечисления всегда является произвольным – нельзя сказать, что одна категория «важнее» другой.
В табл. 2.1 также есть признак «Дата», представляющий собой дополнительный тип данных, который является последовательным и может использоваться в арифметических выражениях в качестве числовых данных.
Сбор и структурирование данных
В предыдущем разделе мы говорили о типах данных в наборах, однако существуют более крупные категории для описания способа сбора и структурирования данных.