Попытки распознавания, основанные на физике и статистике, главным образом на скрытых Марковских цепях были полезны, но не привели к конечному результату. Для коммерческих приложений требуется распознавание речи, а не идентификация говорящего, то есть система должна с равным успехом понимать речь разных людей с разными особенностями голосов. Решение такой задачи требует сочетания двух подходов – акустического и лингвистического, оно не может быть получено без методов машинного обучения. Только в середине прошлого десятилетия появились комплексные продукты от Google и Apple. Существующие системы ASR относятся к классу гибридных, в них сочетаются три модели – акустическая (acoustic), языковая (language) и модель произнесения (pronunciation), каждая из них обучается независимо от других и весь процесс в целом оказывается сложным и долгим. На смену этой парадигме идет следующая, где одна модель включают всё – End-to-end (E2E) ASR.
Отрадно отметить, что в области ASR, не уступая зарубежным компаниям работает Центр Речевых Технологий ЦРТ (ныне он куплен «Сбером»), его продукт CHiME Speech Separation and Recognition Challenge (CHiME-6) признан лучшим в своем классе на международном конкурсе в 2020 году.
Speech synthesis, в большей мере инженерная и прикладная задача, начиная с пятидесятых воспроизведением голоса занимались математики и инженеры в интересах военных спецслужб. Результатом стал класс приборов – вокодеров, превращающих живой звук в сигнал, который можно сжать или закодировать, чтобы уменьшить полосу пропускания и затруднить декодирование, а затем воспроизвести с тем или иным качеством. Успехи в этом деле привели к тому, что сегодня вся музыкальная индустрия основывается на новом поколении вокодеров, способных превратить убогое хрипение в хит.
Умные машины и киберфизические системы
Ни один фантаст не мог предположить создание киберфизических систем (Cyber-Physical System, CPS) – продукта конвергенции встроенных систем с AI. Этот термин возник в 2006 году при подготовке семинара, посвященного будущему встроенных систем в Национальном научном фонде США, его устроители пытались пересмотреть роль встроенных систем с учетом перспектив в области AI. И это им удалось – они уловили общую тенденцию и уже через пару лет прогресс в этом классе систем был признан одним из наиболее важных направлений технического развития в США, а чуть позже и в Европе. Администрация президента Барака Обамы включила киберфизические системы в приоритетный список инноваций. Реальные подвижки в CPS начались во втором десятилетии XXI века с подъемом третьей волны AI. В 2013 году Брюсселе состоялась специальная конференция Cyber-Physical Systems: Uplifting Europe's innovation capacity, посвященная киберфизическим системам и их роли в инновационном процессе, где было подтверждено, что развитие CPS служит важнейшим фактором для подъема европейской экономики.
Предшественниками CPS можно считать встроенные системы реального времени, распределенные вычислительные системы, автоматизированные системы управления техническими процессами и объектами, беспроводные сенсорные сети. CPS – это системы, состоящие из различных природных объектов, искусственных подсистем и управляющих контроллеров, позволяющих представить такое образование как единое целое. В CPS обеспечивается тесная связь и координация между вычислительными и физическими ресурсами. Область действия CPS распространяется на робототехнику, транспорт, энергетику, управление промышленными процессами и крупными инфраструктурами. Создание полноценных систем CPS в перспективе приведет примерно к таким же изменениям во взаимодействии с физическим миром, как те, к которым привела в свое время Сеть.
Можно выделить несколько основных предпосылок, сделавших CPS возможными. Первая – рост числа устройств со встроенными процессорами и средствами хранения данных: сенсорные сети, работающие во всех протяженных технических инфраструктурах; медицинское оборудование; умные дома и т. д. Вторая – интеграция, позволяющая достигнуть наибольшего эффекта путем объединения отдельных компонентов в большие системы, такие как Интернет вещей, и умная среда обитания (Smart Building Environment). Третья – ограничение когнитивных способностей человека, они не позволяют ему справиться с объемом информации, требуемой для принятия решений, поэтому какую-то часть действий нужно передать CFS, частично выведя человека из контура управления (human out of loop) и предать ее AI. В то же время в ряде случаев CPS могут усилить аналитические способности человека, поэтому есть потребность в создании интерактивных систем нового уровня, сохраняющих человека в контуре управления (human in the loop). Появление технологий AI позволяет решить обе эти проблемы.
Область приложения CPS естественным образом разбивается на следующие основные сегменты: умное производство, умные сети и услуги, умные здания и инфраструктуры, умный транспорт.
Умное производство