Каталоги, как неотъемлемая часть любой библиотеки, были придуманы в еще Ассирии в середине 1 века до н. э., но свой классический вид (ящики с каталожными карточками) они приобрели благодаря изобретению Карла Линнея. Этот ученый создал не только единую систему классификации растительного и животного мира, но и вообще стал основоположником систем классификации, за что получил титул «отца современной таксономии». До Линнея каталоги имели вид тетрадей, а он заменил непрерывные тетради дискретными карточками, которые можно дополнять и переупорядочивать со всеми вытекающими последствиями. Библиотечные каталоги на карточках появились впервые в Австро-Венгрии в 1780 году, для записи данных о книгах использовалась рубашка удобных по формату игральных карт. После Французской революции и в наполеоновские времена карточные каталоги были заметно усовершенствованы. Окончательный стандарт на формат карточки 3х5 дюймов и конструкцию ящика был прият в конце XIX века. С 90-х годов прошлого века бумажные каталоги стали вытесняться компьютерными и в 2015 был напечатан последний тираж каталожных карточек.
С появлением печатных книг возникла массовая грамотность, она стимулировала изучение языка и появление лингвистики. Впрочем, термин лингвистика (linguistics) появился намного позже, только лишь в середине XIX века, до этого лингвистами (linguist) называли студентов, изучающих язык. Предпосылки к созданию новой науки создал Вильгельм фон Гумбольдт, а также Иоганн Гердер и Иоганн Кристоф Аделунг. Отцом современной лингвистики считают швейцарца Фердинанда де Соссюра (Ferdinand de Saussure, 1857–1913), основателя Женевской лингвистической школы, заложившего основы структурной лингвистики. Материалы прочитанных им лекций собрали и издали в виде книги «Курс общей лингвистики» в 1916 году его ученики Шарль Балли и Альбер Сеше. История лингвистики – самостоятельная дисциплина, мы ее затрагивать не будем.
В истории обнаруживаются и более ранние попытки применить формальные методы для работы с текстами, известен, например, Авраам бен Самуэль Абулафия, еврейский мыслитель и каббалист, живший в Испании во второй половине XIII века. Он был современником Раймунда Луллия, есть сведения, что Абулафия и Луллий состояли в переписке. Объектом исследования Абулафии был трактат Сефер Йецира (Книга творения) – один из основополагающих каббалистических текстов. В нем рассматривается то, как бог создал язык и способ его записи 22 буквами еврейского алфавита. Абулафия пошел дальше, он стремился понять можно ли, следуя формальным правилам, манипулировать символами для получения новых истин. Идеологически Абулафия и Луллий близки, первый манипулировал буквами, а второй с помощью своей машины – словами. Абулафия назвал созданное им наукой о комбинации букв, которую можно считать зародышем NLP.
В своем романе «Маятник Фуко» Умберто Эко вернул имя Абулафии в современную массовую европейскую культуру, так им назван персональный компьютер, принадлежащий главному героем Бельбо. Этот компьютер, используемый для работы с текстами, стал наравне с людьми одним из персонажей «Маятника», а выдержки из книги Абулафии Эко использует в качестве эпиграфов к главам.
Как это ни странно, но близкой к кабалистическим представлениям Абулафии о языке оказалась диссертация «О комбинаторном искусстве» (
NLP, данные и информация
Текст – это символьные данные, содержащие информацию, если текст обозрим, то человек без всякой помощи прекрасно справляется с решением задачи преобразования этих данных в полезную для себя информацию. Но в наше время объем текстов, доступных в цифровой форме, таков, что человек с ним справиться не может и возникает потребность в автоматизации этого процесса. Возвращаясь к иерархической модели DIKW, можно сказать, что NLP – это технология преобразования текстовых, она служит инструментом для интеллектуального анализа текстов (text mining, TM), для преобразования неструктурированного текста на естественном языке в нормализованные структурированные данные, которые можно хранить в базах или хранилищах данных и т. д. NLP сочетает методы лингвистики, математики и компьютерной науки и делится на две взаимодополняющие составляющие Natural Language Understanding (NLU) и Natural Language Generation (NLG).