Для удаления ненужных эталонов используйте кнопку Удалить, после чего подтвердите удаление.
Далее на конкретном примере рассмотрим порядок обучения и применения пользовательских эталонов.
Предположим, что нам нужно распознать сохраненный в формате gif документ, фрагмент которого показан на рис. 4.7.
Рис. 4.7. Фрагмент документа для распознавания
Вначале попробуем распознать его обычным способом – без применения пользовательских эталонов. Для этого выполним команду главного меню Файл->Открыть PDF/изображение (эта команда вызывается также нажатием комбинации клавиш Ctrl+O) и в открывшемся окне укажем путь к требуемому файлу, после чего нажмем кнопку Открыть. Через какое-то время (в зависимости от скорости работы компьютера) отобразится рабочий интерфейс программы. Результат распознавания будет представлен в окне Текст (рис. 4.8).
Рис. 4.8. Результат распознавания документа
Как видно на рисунке, текст документа распознан некорректно: вместо цифры 1 отображается буква г, есть ошибка в слове Фамилия. Кроме этого – программа неуверенно распознала слова имя и отчество (об этом свидетельствует их цветовое выделение).
Чтобы решить проблему, используем механизм распознавания с обучением. Для этого вначале войдем в режим настройки программы, выполнив в главном меню команду Сервис->Опции (эта команда вызывается также нажатием Ctrl+Shift+O). В открывшемся окне перейдем на вкладку Распознать и установим переключатель Обучение в положение Использовать встроенные и пользовательские эталоны. В результате станет доступным флажок Распознавание с обучением, который нужно установить (рис. 4.9).
Рис. 4.9. Включение режима распознавания с обучением
Теперь нужно выбрать эталон для обучения и последующего использования. Для этого нажмем кнопку Редактор эталонов – в результате на экране откроется уже знакомое нам окно Редактор эталонов (см. рис. 4.5). Чтобы выбрать в нем имеющийся эталон, нужно выделить его щелчком мыши, нажать кнопку Выбрать, а затем – кнопку ОК (причем дважды – в окне редактора эталонов и в режиме настройки).
Как мы уже отмечали выше, применять уже имеющиеся эталоны для распознавания новых документов можно лишь при соблюдении определенных условий. В противном случае придется создать для обучения новый эталон. В этом случае он автоматически выбирается для работы с документом.
Теперь возвращаемся в рабочий интерфейс, последовательно закрыв редактор эталонов и окно настройки программы, и запускаем процесс распознавания. В самом начале распознавания на экране откроется окно, информирующее о ходе процесса. Но как только программе попадется незнакомый символ – сразу отобразится окно, которое показано на рис. 4.10.
Рис. 4.10. Режим ручного обучения
В данном окне осуществляется ручное обучение эталона. Смысл данной операции заключается в том, чтобы четко указать программе, каким образом здесь и далее следует распознавать незнакомые ей символы.
На рисунке видно, что первым таким символом в нашем документе является цифра 1, которую программа так и не смогла распознать в обычном режиме (см. рис. 4.8). В верхней части окна он выделен рамкой (см. рис. 4.10).
Рис. 4.11. Выбор символа для распознавания