Иногда NLU еще называют Natural Language Interpretation (NLI), подтверждая тот факт, что для перевода английского слова understanding в NLU можно использовать и русское слово интерпретация. Для понимания-интерпретации текстовые данные подвергаются синтаксическому анализу (parsing), делятся на более мелкие и простые части, над которыми могут выполняться какие-то иные операции с целью превращения этих данных в структурированные и извлечения из них полезной информации. NLG решает обратную задачу превращения структурированных данных в читаемый текст на разговорном языке, то есть в неструктурированный и неформатированный текст, такой текст называют plain text.
Три подхода к NLP
Можно выделить три основных подхода к NLP:
– Символьный подход предполагает использование лингвистических правил, записанных человеком.
– Статистический подход основан на распознавании образов в больших объемах текстов с целью «понимания» естественного языка.
– Коннекционистский подход сочетает элементы символьного и статического с использованием нейронных сетей.
NLP на основе символьного подхода
Сохранение, казалось бы, устаревшего символьного подхода в NLP имеет очевидную причину – язык является символьным по своей природе. С символьного подхода все началось и он существует до сих пор, поэтому в определенной мере сохраняют актуальность некоторые первые решения, основанные на логике, правилах и онтологиях как формах представления знаний. Время с конца 40-х – до конца 60-х ассоциируется главным образом с задачами машинного перевода (Machine Translation, MT), описанными в главе 3. По итогам широко известного Джорджтаунского эксперимента стало формироваться MT как новое научное направление, с 1954 началось издание журналов
Энтузиазм первопроходцев находился в явном противоречии с возможностями существовавших на тот момент компьютеров, напомним, что иных средств взаимодействия с компьютером кроме принтера перфокарт не существовало и вся работа осуществлялась в пакетном режиме. Решение задач MT требовало иного аппаратного обеспечения, поэтому возникали утопические проекты создания специализированных компьютеров для работы с нецифровыми данными. Несмотря на то, что ничего позитивного в области MT тогда достигнуто не было, важнейшим наследием первого периода NLP стали теоретические работы в области вычислительной лингвистики. В первую очередь следует отметить труды Нома Хомского (Noam Chomsky, 1928), еще одного потомка выходцев из Российской Империи.
Следующие 10–15 лет с начала 60-х напоминают недолгий, но яркий взлет экспертных систем, случившийся в интервале между двумя зимами AI. Он привел к вопросно-ответным системам NLP с их попытками использовать экспертные знания, эту волну можно назвать семанически-ориентированной. В 1961 году в МТИ создали систему Baseball, способную вести диалог, она понимала вопросы, относящееся к культовой в Бостоне бейсбольной команде Red Sox и могла давать подходящие ответы, система детально описана в статье