Историю DM можно начать с теоремы Томаса Байеса (1763), позволяющей вычислить вероятность события с учетом ранее известных и новых данных. Можно также вспомнить основополагающие работы в области регрессионного анализа Ариена-Мари Лежандра (1805) и Карла Гаусса (1809). С тех пор и поныне статистические методы извлечения полезной информации из данных были и остаются краеугольным камнем для DM. Собственно термин data mining был предложен в середине 80-х Робертом Хехт-Нильсеном (Robert Hecht-Nielsen, 1947–2019) основателем компании HNC (Hecht-Nielsen Neurocomputer Corporation), позже она вошла в состав компании FICO, признанного крупнейшего финансового аналитика. HNC первой разрабатывала ПО для прогнозов, основанное на нейронных сетях. В нем моделировалось распознавание информации, скрытой в данных, по образу и подобию человеческого сознания. Эти разработки имели оборонное назначение, что естественно для компании, находящейся в Сан-Диего, центре ВМС США, но позже областью приложения стала финансовая индустрия, страхование, розничная торговля.
Современный интеллектуальный анализ данных имеет в основе три составляющие – собственно данные, извлекаемая из данных информация и полученные из данных знания.
Метаданные и гипертекст
Художественные тексты и особенно стихи содержат в себе скрытые метаданные. Обычно символьные данные сами по себе никакого смысла не имеют, они становятся полезным источником информации в том случае, если сопровождаются вспомогательными данными, указывающими на то, как их интерпретировать. Простейший вид явных метаданных – запись данных в предопределенную структуру, например в СУБД или в электронную таблицу, где нахождение числа или слова в определенной позиции придает ему значение и открывает возможность для поиска и анализа. Такие метаданные можно назвать структурными. Есть альтернативный способ явного представления метаданных, он по идее прост – достаточно можно снабдить данные ярлыками-метками, указывающими на смысл, который имеют следующие за ним записи. Такая разметка удобна для неструктурированных данных, в том числе и записей на естественном языке.
С момента появления самых первых компьютерных систем для работы с текстами все электронные документы содержали те или иные символы для управления печатью (CR, LF и др.). Однако их возможности оставались весьма ограниченными, методы разметки были привязаны к определенным принтерам, а с появлением новых устройств с более широкими возможностями (такими, скажем, как принтер с шаровой головкой) потребовались новые средства управления печатью. Чтобы преодолеть этого ограничение исследовательская группа корпорации IBM, возглавляемая Чарльзом Гольдфарбом, разработала язык разметки GML, «отвязавший» текст от формата печати.
Последующие исследования Гольдфарб вел самостоятельно; в конечном итоге они привели его к созданию языка Standard Generalized Markup Language (SGML). В период с 1978-го по 1985 год язык проходил сложный процесс стандартизации. В конечном итоге он был принят и American National Standards Institute (ANSI), и европейским агентством Computer Office of Official Publications. На следующем этапе SGML попал в европейский центр исследований физики элементарных частиц (CERN). Здесь первое средство для использования SGML разработал Андерс Берглунд (Anders Berglund). В CERN была разработана и технология CERNDOC на основе SGML, которая в последующем оказалась столь успешной, что была принята американской ассоциацией издателей American Association of Publishers. Одним из активных пользователей этой технологии был Тим Бернерс-Ли (1955), создавший совместно с Робертом Кайо (Robert Cailliau, 1947) Всемирную паутину WWW, поэтому нет ничего удивительного в том, что при разработке HTML он использовал свой опыт работы с SGML.
И все же SGML оказался весьма сложен, поэтому широкого распространения не получил, зато стал прототипом для двух широко известных языков. Первый – XML (eXtensible Markup Language), служащий для кодирования документов в World Wide Web, второй – Hypertext Markup Language (HTML), используемый для кодирования документов, воспроизводимых браузерами.
К разметке близок гипертекст, этот термин был предложен в 1965 году Тедом Нельсоном (Ted» Nelson, 1937 года) который определил его следующим образом: «Массив текстов или графики, объединенных сложными связями, которые с достаточной полнотой не могут быть представлены в бумажной форме. Связи могут включать карты контента, ссылки, аннотации, комментарии и другие инструменты для указания». В истории гипертекста сложилась вполне устоявшаяся хронология событий. Точкой отсчета обычно называют Ванневара Буша и его гипотетическую машину Memex (Memory Extender), далее переходят к Дагу Энгельбарту, затем к Теду Нельсону и, наконец, к Тиму Бернерсу-Ли, работашему совместно с Робертом Калио.