До появления нынешних мультимедийных средств казалось, что роботы могут иметь только материальное воплощение для занятия физическим трудом. Но с появлением разнообразных устройств, поддерживающих человеко-машинный интерфейс, с одной стороны, с другой, с возрастанием роли данных в современной экономике, изменилось представление о труде. Умственный труд оказался не менее важен, чем физический и, как следствие, оказалось насущным создание виртуальных роботов для автоматизации такого труда. Виртуальные роботы, не рассматриваются в качестве замены человеческого интеллекта, а как средство для его расширения (Augmented AI, AuI). Это направление роботизации находится на начальном уровне развития, пока самыми распространенными приложениями, относимыми к роботам, остаются речевые технологии (conversation-based technology). В их числе разговорные роботы чатботы (chatbot), речевые агенты (conversational agent) и виртуальные помощники (virtual assistant). В порядке возрастания сложности они могут быть упорядочены:
• Чатбот, действует в режиме один вопрос – один ответ (single-turn exchanges), например, «Гугл, какая гора самая высокая на Земле?»
• Речевой агент, вступает в диалог с пользователем, стремясь понять его проблему. Такой агент обучен задавать заранее подготовленные вопросы, чтобы выйти на возникающую проблему и по возможности ее решить, например, при обращении в банк: «Моя карта не срабатывает».
• Виртуальный помощник, настраивается на индивидуальные запросы клиента, пользуется накопленной о нем информацией, по мере взаимодействия с клиентом обучается и повышает качество ответов. Он может напомнить расписание полетов или список дел.
Создание виртуальных роботов требует решения двух проблем. Одна в большей мере формальная или техническая, она делится на две составляющие: распознавание и воспроизведение речи, задачи из этой категории уже имеют более или менее удовлетворительные решения. Другая категория – то есть содержательная – «понимание» обращений пользователя и формирование ответов.
Свою историю речевые боты ведут от программы ELIZA, написанной в 1966 году профессором МТИ Джозефом Вейцбаумом. Качественно новый шаг через 30 лет совершил Ричард Уоллес (1960), создатель виртуального собеседника «Искусственное лингвистическое интернет-компьютерное существо» A. L. I. C. E. (Artificial Linguistic Internet Computer Entity). Уоллес создал AIML язык разметки для AI по образу и подобию XML.
Между ELIZA и современными речевыми технологиями возник разрыв на несколько десятилетий, в первую очередь он был обусловлен отсутствием необходимых средств для распознавания речи (
Для создания чатботов нужны еще средства распознавания речи, работы в этом направлении начались еще в 50-е годы, первые шаги в этом направлении были сделаны в процессе совместной работы лабораторий из нескольких университетов по программе автоматической транскрипции речи (Robust Automatic Transcription of Speech, RATS), спонсированной DARPA. Она завершилась созданием Harpy System, способной распознавать речь примерно на уровне трехлетнего ребенка. В последующем продолжались многочисленные эксперименты и исследования, но конца 90-х годов трудно было говорить о практической реализации технологий распознавания речи.
Решающий прорыв в этом направлении был сделан Google в 2001 году с изобретением Google Voice Search, использовавшем вычислительные мощности больших ЦОДов, хранящих сотни миллиардов речевых образцов.