Читаем Разберись в Data Science полностью

Обратите внимание на то, что эта таблица содержит строки и столбцы, которые играют определенные роли в процессе интерпретации ее содержимого. Каждая горизонтальная строка таблицы представляет собой измеренный экземпляр связанной информации. В данном случае – информации о маркетинговой кампании. Каждый вертикальный столбец таблицы представляет собой список интересующих нас фрагментов информации, имеющих общую кодировку, что позволяет нам сравнивать экземпляры между собой.

Строки подобных таблиц обычно называются наблюдениями, записями, кортежами или испытаниями. Столбцы в наборах данных часто называются признаками, полями, атрибутами, предикторами или переменными.

Знайте свою аудиторию

Работа с данными ведется во множестве предметных областей, в каждой из которых используется профессиональный сленг, поэтому для одних и тех же вещей существует несколько названий. Одни специалисты по работе с данными могут называть столбцы в наборе данных «признаками», а другие – «переменными» или «предикторами». Поэтому главному по данным важно уметь ориентироваться в предпочтениях разных групп.

Табл. 2.1. Пример набора данных о рекламных расходах и прибыли

Точка данных – это место пересечения наблюдения и признака. В данном случае примером точки данных является 150 единиц товара, проданного 01 февраля 2021 года.

Таблица 2.1 имеет заголовок (фрагмент нечисловых данных), который помогает нам понять, что означает каждый признак. Обратите внимание, что строка заголовка не обязательна. В таких случаях заголовок подразумевается, и человек, работающий с набором данных, должен знать, что означает каждый из признаков.

<p>Типы данных</p>

Существует множество способов кодирования информации, однако специалисты по работе с данными используют несколько видов кодировки для хранения информации и передачи полученных результатов. Два наиболее распространенных типа данных – числовые и категориальные.

Числовые данные в основном состоят из чисел, но могут включать дополнительные символы для обозначения единиц. К категориальным данным относятся слова, символы, фразы и (как ни странно) иногда числа – например, почтовые индексы. И числовые, и категориальные данные делятся на дополнительные подкатегории.

Существуют два основных типа числовых данных:

– Непрерывные данные могут принимать любое значение в некотором числовом диапазоне. Они представляют собой принципиально неисчисляемый набор значений. Возьмем, к примеру, погоду. Температура воздуха на улице, преобразованная в данные, будет представлять собой непрерывную переменную. Допустим, она составляет 65,62 градуса по Фаренгейту (18,67 °C). Местная новостная станция может передать это значение как 65 °F (18 °C), 66 °F (19 °C) или 65,6 °F (18,7 °C).

– Счетные (или дискретные) данные, в отличие от непрерывных, ограничивают точность целым числом. Например, количество автомобилей, которыми вы владеете, может быть равно 0, 1, 2 и так далее, но не 1,23. Это отражает основополагающую реальность измеряемой вещи[10].

Категориальные данные также делятся на два основных типа:

– Упорядоченные (или порядковые) данные – это категориальные данные, которым присущ определенный порядок. Такие данные используют, например, организаторы опросов, когда предлагают вам оценить свой опыт по шкале от 1 до 10. Хотя эти данные напоминают счетные, мы не можем приравнять разницу между оценками 10 и 9 к разнице между 1 и 0. Разумеется, порядковые категориальные данные не обязательно кодировать в виде чисел. Например, размер рубашки относится к порядковым данным, но его можно закодировать с помощью слов: маленький, средний, большой, очень большой.

– Неупорядоченные (или номинальные) категориальные данные не имеют присущего им порядка. Например, табл. 2.1 содержит признак «Медиа» со значениями «Печать», «Интернет» и «Телевидение». Другие примеры номинальных переменных – ответы «Да» и «Нет», а также принадлежность к демократической или республиканской партии. Порядок их перечисления всегда является произвольным – нельзя сказать, что одна категория «важнее» другой.

В табл. 2.1 также есть признак «Дата», представляющий собой дополнительный тип данных, который является последовательным и может использоваться в арифметических выражениях в качестве числовых данных.

<p>Сбор и структурирование данных</p>

В предыдущем разделе мы говорили о типах данных в наборах, однако существуют более крупные категории для описания способа сбора и структурирования данных.

<p><emphasis>Данные наблюдений и экспериментальные данные</emphasis></p>
Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных