Читаем Разум, машины и математика полностью

Сразу после заверения работы над системой была обнаружена удивительная тенденция: в период с 17:00 до 19:00 существенно возрастали совокупные продажи подгузников и пива. Иными словами, масса клиентов, приобретавших в это время подгузники, включали в свою продуктовую корзину и пиво. Эта тенденция сначала обеспокоила исследователей, однако вскоре нашлось и объяснение: клиенты с маленькими детьми не могут отправиться на футбол, баскетбол или бейсбол, поэтому они покупали пиво, чтобы пить его во время телевизионной трансляции матчей.

Как компания Osco использовала эту информацию? Полки с подгузниками и пивом были переставлены ближе друг к другу, и совокупные продажи обеих групп товаров значительно возросли. Этот пример использования информационных систем получил известность, и сегодня все крупные торговые сети используют хранилища данных и средства интеллектуального анализа для изучения тенденций рынка и запуска новых продуктов.

О том, что такое интеллектуальный анализ данных и хранилище данных, мы расскажем чуть позже. Пока лишь отметим, что анализ данных — это дисциплина, в которой изучаются способы извлечения информации из систематически собираемых сведений. В силу растущей сложности данных среды проводить подобный анализ с каждым разом становится все труднее, и сегодня интеллектуальный анализ данных выделяют в отдельную дисциплину на стыке искусственного интеллекта и статистики.

Анализ данных возник в XVIII веке одновременно с появлением первых современных государств, осуществлявших систематический сбор информации о населении и состоянии экономики. Интеллектуальный анализ данных появился значительно позже, в конце XX века, когда вычислительные мощности и новые методы искусственного интеллекта достигли уровня, достаточного для того, чтобы извлекать информацию из огромных объемов данных.

Интеллектуальный анализ данных

Результатом классического интеллектуального анализа данных является математическая модель, которая помогает объяснить выявленные в ходе анализа тенденции.

Также эта модель позволяет предсказать появление новых тенденций и даже провести классификацию или сегментирование данных на основе шаблонов поведения, выявить которые совсем не просто.

При интеллектуальном анализе результатом обработки данных является информация, из которой извлекаются знания.

Фундаментальные средства анализа данных основывались на понятиях, связанных с условной вероятностью и предложенных священником Томасом Байесом еще в XVIII веке. Проблема, которая серьезно осложняет анализ данных, заключается в том, откуда берутся сами данные. К примеру, представим, что мы хотим проанализировать сведения о пациентах, страдающих от раковых заболеваний, и обращаемся к архиву онко диспансера. Как правило, в подобных архивах содержится намного больше информации о больных пациентах, чем о здоровых, ведь источником данных является больница. Это исходное отклонение Байес выразил с помощью введенного им понятия условной вероятности, которое мы уже объясняли в предыдущей главе.

Результатом исследований условной вероятности Байеса стал ряд методов, позволяющих учесть это исходное отклонение и сделать точные выводы. В общем случае интеллектуальный анализ данных делится на следующие этапы.

1. Отбор множества данных. На этом этапе выбираются целевые переменные, на основе которых будут производиться сегментирование, классификация или прогнозирование, а также независимые переменные — данные, на основе которых будут строиться модели. Часто обработать все доступные данные невозможно, поэтому на этапе отбора необходимо произвести выборку данных для анализа.

2. Анализ особенностей данных. На этом этапе проводится первое простое изучение данных для выявления нетипичных значений, выходящих за разумные пределы. Также определяются переменные, которые не предоставляют важной информации для решения задачи.

3. Преобразование входных данных. На этом этапе обычно проводится нормализация данных, чтобы избежать серьезных ошибок на последующих этапах моделирования. Предположим, что в задаче рассматриваются две переменные — рост и вес жителей страны. Рост, скорее всего, будет указываться в сантиметрах или даже миллиметрах, вес — в килограммах. Если мы будем использовать нейронную сеть для моделирования этих данных, то получим некорректные результаты из-за больших различий во входных значениях (рост человека может достигать двух тысяч миллиметров, а вес редко превышает сто килограммов). Поэтому данные обычно преобразуются так, чтобы минимальное значение равнялось 0, максимальное — 1.

Перейти на страницу:

Все книги серии Мир математики

Математики, шпионы и хакеры
Математики, шпионы и хакеры

Если бы историю человечества можно было представить в виде шпионского романа, то главными героями этого произведения, несомненно, стали бы криптографы и криптоаналитики. Первые — специалисты, виртуозно владеющие искусством кодирования сообщений. Вторые — гении взлома и дешифровки, на компьютерном сленге именуемые хакерами. История соперничества криптографов и криптоаналитиков стара как мир.Эволюционируя вместе с развитием высоких технологий, ремесло шифрования достигло в XXI веке самой дальней границы современной науки — квантовой механики. И хотя объектом кодирования обычно является текст, инструментом работы кодировщиков была и остается математика.Эта книга — попытка рассказать читателю историю шифрования через призму развития математической мысли.

Жуан Гомес

Математика / Образование и наука
Когда прямые искривляются
Когда прямые искривляются

Многие из нас слышали о том, что современная наука уже довольно давно поставила под сомнение основные постулаты евклидовой геометрии. Но какие именно теории пришли на смену классической доктрине? На ум приходит разве что популярная теория относительности Эйнштейна. На самом деле таких революционных идей и гипотез гораздо больше. Пространство Минковского, гиперболическая геометрия Лобачевского и Бойяи, эллиптическая геометрия Римана и другие любопытные способы описания окружающего нас мира относятся к группе так называемых неевклидовых геометрий. Каким образом пересекаются параллельные прямые? В каком случае сумма внутренних углов треугольника может составить больше 180°? Ответы на эти и многие другие вопросы вы найдете в данной книге.

Жуан Гомес

Математика / Образование и наука

Похожие книги

История математики. От счетных палочек до бессчетных вселенных
История математики. От счетных палочек до бессчетных вселенных

Эта книга, по словам самого автора, — «путешествие во времени от вавилонских "шестидесятников" до фракталов и размытой логики». Таких «от… и до…» в «Истории математики» много. От загадочных счетных палочек первобытных людей до первого «калькулятора» — абака. От древневавилонской системы счисления до первых практических карт. От древнегреческих астрономов до живописцев Средневековья. От иллюстрированных средневековых трактатов до «математического» сюрреализма двадцатого века…Но книга рассказывает не только об истории науки. Читатель узнает немало интересного о взлетах и падениях древних цивилизаций, о современной астрономии, об искусстве шифрования и уловках взломщиков кодов, о военной стратегии, навигации и, конечно же, о современном искусстве, непременно включающем в себя компьютерную графику и непостижимые фрактальные узоры.

Ричард Манкевич

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Математика / Научпоп / Образование и наука / Документальное