Читаем Эксперт № 16 (2014) полностью

ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках. Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними. Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия. Ее можно представить в виде дерева, толстые ветви которого — общие понятия, а тонкие — понятия более специфические. Например, понятие «стол» относится к родительской категории «мебель», оно может сочетаться с понятиями «собрать», «сидеть за», «быть зачатым на», «дубовый», «дешевый» и т. д. Фактически ABBYY создала универсальный синтетический язык, на который можно перевести текст с любого естественного, а также решить обратную задачу, что необходимо для перевода текстов с одного естественного языка на другой.

На универсальную семантическую модель языка накладываются уникальные для каждого языка морфология и синтаксис. Система анализирует текст и выстраивает дерево связей, с его помощью понимая смысл каждого слова с учетом контекста. Например, наличие в тексте «стола» придает «стулу» совсем другое значение, отсылающее к той же родительской категории, чем контекст медицинских терминов. А отличия в смысле выражений «знать всех местных» и «вся местная знать» невозможно понять без анализа морфологии.

Полнота описания семантики, морфологии и синтаксиса проверяется на внутренней системе статистического анализа. ABBYY собрала гигантский объем корпусов — специальным образом размеченных текстов, на которых осуществляются проверка и обучение системы.

Сейчас в Compreno включено уже 110 тыс. универсальных понятий. По словам Татьяны Даниэлян , заместителя директора по разработке технологий, отвечающей в ABBYY за создание Compreno, такой подход к системам уникален — ей не известно о попытках разработки подобных полноценных систем семантического анализа конкурентами. Пока платформа работает только с английским и русским языками; планируется в будущем добавить немецкий, испанский, французский и китайский.

Задача оказалась куда сложнее, чем виделось изначально. К нынешнему моменту общие трудозатраты составили уже около 2000 человеко-лет. Создание Compreno потребовало от ABBYY 19 лет, 80 млн долларов собственных средств и 14 млн долларов гранта Сколково. Сейчас над проектом трудятся около 350 человек.

«Когда мы начинали проект Compreno в 1995-м, то планировали, что три года уйдет на исследования, а затем за четыре года за счет привлечения дополнительных лингвистов мы заполним систему понятиями и выпустим коммерческий продукт, — рассказывает Татьяна Даниэлян. — Но задача оказалась сложнее, чем представлялось изначально. Кроме того, появившиеся в 2000-х годах онлайновые переводчики, пусть не очень качественные, но бесплатные, заставили нас изменить стратегию коммерциализации». Google Translate занял нишу быстрого понимания: люди, которым время от времени нужно понять примерный смысл иноязычного текста, не готовы платить за это, и бесплатный статистический перевод является сильным конкурентом. Из наиболее понятных для коммерциализации остались ниши профессионального перевода и интеллектуального поиска. Технологически поиск проще перевода, а его рынок достаточно емкий и растущий. Именно поэтому поиск был выбран первым проектом для реализации.

По оценкам компании IDC, объем мирового рынка корпоративного поиска в 2014 году составит 2 млрд долларов, а появление более эффективных инструментов может значительно увеличить его размер. Кроме того, вывод новой технологии на уже сформировавшийся и понятный рынок дает время на то, чтобы доработать технологию, прежде чем предлагать пользователям более непривычные для них решения.

Сейчас рынок корпоративного поиска поделен между тремя основными игроками: Google, HP и Microsoft, которые в сумме занимают долю около 80%. «Наши первые тесты говорят, что мы показываем преимущество по точности и полноте результатов поиска», — уверяет Антон Тюрин , директор департамента продуктов Compreno. В менее официальных комментариях сотрудники говорят, что «рвут конкурентов».

Перейти на страницу:

Похожие книги

Абсолютное зло: поиски Сыновей Сэма
Абсолютное зло: поиски Сыновей Сэма

Кто приказывал Дэвиду Берковицу убивать? Черный лабрадор или кто-то другой? Он точно действовал один? Сын Сэма или Сыновья Сэма?..10 августа 1977 года полиция Нью-Йорка арестовала Дэвида Берковица – Убийцу с 44-м калибром, более известного как Сын Сэма. Берковиц признался, что стрелял в пятнадцать человек, убив при этом шестерых. На допросе он сделал шокирующее заявление – убивать ему приказывала собака-демон. Дело было официально закрыто.Журналист Мори Терри с подозрением отнесся к признанию Берковица. Вдохновленный противоречивыми показаниями свидетелей и уликами, упущенными из виду в ходе расследования, Терри был убежден, что Сын Сэма действовал не один. Тщательно собирая доказательства в течение десяти лет, он опубликовал свои выводы в первом издании «Абсолютного зла» в 1987 году. Терри предположил, что нападения Сына Сэма были организованы культом в Йонкерсе, который мог быть связан с Церковью Процесса Последнего суда и ответственен за другие ритуальные убийства по всей стране. С Церковью Процесса в свое время также связывали Чарльза Мэнсона и его секту «Семья».В формате PDF A4 сохранен издательский макет книги.

Мори Терри

Публицистика / Документальное
1917. Разгадка «русской» революции
1917. Разгадка «русской» революции

Гибель Российской империи в 1917 году не была случайностью, как не случайно рассыпался и Советский Союз. В обоих случаях мощная внешняя сила инициировала распад России, используя подлецов и дураков, которые за деньги или красивые обещания в итоге разрушили свою собственную страну.История этой величайшей катастрофы до сих пор во многом загадочна, и вопросов здесь куда больше, чем ответов. Германия, на которую до сих пор возлагают вину, была не более чем орудием, а потом точно так же стала жертвой уже своей революции. Февраль 1917-го — это начало русской катастрофы XX века, последствия которой были преодолены слишком дорогой ценой. Но когда мы забыли, как геополитические враги России разрушили нашу страну, — ситуация распада и хаоса повторилась вновь. И в том и в другом случае эта сила прикрывалась фальшивыми одеждами «союзничества» и «общечеловеческих ценностей». Вот и сегодня их «идейные» потомки, обильно финансируемые из-за рубежа, вновь готовы спровоцировать в России революцию.Из книги вы узнаете: почему Николай II и его брат так легко отреклись от трона? кто и как организовал проезд Ленина в «пломбированном» вагоне в Россию? зачем английский разведчик Освальд Рейнер сделал «контрольный выстрел» в лоб Григорию Распутину? почему германский Генштаб даже не подозревал, что у него есть шпион по фамилии Ульянов? зачем Временное правительство оплатило проезд на родину революционерам, которые ехали его свергать? почему Александр Керенский вместо борьбы с большевиками играл с ними в поддавки и старался передать власть Ленину?Керенский = Горбачев = Ельцин =.?.. Довольно!Никогда больше в России не должна случиться революция!

Николай Викторович Стариков

Публицистика
10 мифов о 1941 годе
10 мифов о 1941 годе

Трагедия 1941 года стала главным козырем «либеральных» ревизионистов, профессиональных обличителей и осквернителей советского прошлого, которые ради достижения своих целей не брезгуют ничем — ни подтасовками, ни передергиванием фактов, ни прямой ложью: в их «сенсационных» сочинениях события сознательно искажаются, потери завышаются многократно, слухи и сплетни выдаются за истину в последней инстанции, антисоветские мифы плодятся, как навозные мухи в выгребной яме…Эта книга — лучшее противоядие от «либеральной» лжи. Ведущий отечественный историк, автор бестселлеров «Берия — лучший менеджер XX века» и «Зачем убили Сталина?», не только опровергает самые злобные и бесстыжие антисоветские мифы, не только выводит на чистую воду кликуш и клеветников, но и предлагает собственную убедительную версию причин и обстоятельств трагедии 1941 года.

Сергей Кремлёв

Публицистика / История / Образование и наука
188 дней и ночей
188 дней и ночей

«188 дней и ночей» представляют для Вишневского, автора поразительных международных бестселлеров «Повторение судьбы» и «Одиночество в Сети», сборников «Любовница», «Мартина» и «Постель», очередной смелый эксперимент: книга написана в соавторстве, на два голоса. Он — популярный писатель, она — главный редактор женского журнала. Они пишут друг другу письма по электронной почте. Комментируя жизнь за окном, они обсуждают массу тем, она — как воинствующая феминистка, он — как мужчина, превозносящий женщин. Любовь, Бог, верность, старость, пластическая хирургия, гомосексуальность, виагра, порнография, литература, музыка — ничто не ускользает от их цепкого взгляда…

Малгожата Домагалик , Януш Вишневский , Януш Леон Вишневский

Публицистика / Семейные отношения, секс / Дом и досуг / Документальное / Образовательная литература