Читаем Программа обработки текста после сканирования AfterScan полностью

Грамматика - это один из файлов программы, который содержит информацию об ошибках и способах их исправления в соответствии со спецификой текстов, обрабатываемых пользователем. Авторы программы обещают, что при необходимости они могут откорректировать файл грамматики и выслать его пользователю.

Личный идентификатор - это не серийный номер и не используется для защиты от копирования, хотя косвенно препятствует незаконному распространению программы.

Интерфейс программы очень прост и содержит стандартные элементы окон Windows- программ: строку заголовка, строку меню, панели инструментов и рабочее поле программы.

Программа умеет выполнять две основные операции, которые разработчики назвали OCR чистка (горячая клавиша ) и переформатирование (горячая клавиша ).

Для чего нужны эти операции?

Во-первых, при распознавании отсканированных текстов, особенно если оригинал отпечатан с невысоким качеством, бледным шрифтом с нечетким рисунком букв, происходит множество ошибок: буква «л» вставляется в текст вместо буквы «д», «с» вместо «е» или наоборот.

Во-вторых, программы распознавания текста нередко «не понимают» особенностей расстановки букв в строке, к которым верстальщики прибегают, чтобы добиться равномерного размещения текста на странице. В результате возникают пробелы между последним словом фразы и точкой, что недопустимо, лишние пробелы «влезают» в текст, отделенный скобками, не к месту возникают заглавные буквы и пр.

В-третьих, при наборе текста с клавиатуры нередко путают русские и английские буквы, имеющие одинаковое начертание: «с», «о», «х», «М». Если дело ограничивается созданием простого офисного документа, то это не беда, но если текст пойдет в электронный набор и планируется к размещению на Web-сайте, это может создать серьезные проблемы.

В четвертых нередко попадаются тексты, набранные в старых текстовых процессорах с принудительной разбивкой абзаца по строкам и принудительными переносами внутри слов.

Конечно, все эти ошибки можно исправлять и вручную, при работе с большими текстами или с большим количеством текстов затраты времени и сил могут отказаться просто нереальными. В решении этой проблемы AfterScan может оказаться хорошим подспорьем. Программа может работать в интерактивном, пошаговом режиме или полностью автоматически. Для работы с большим количеством однотипных документов в программе предусмотрен т.н. пакетный режим.

Программа способна обрабатывать следующие виды текста:

• Текст в современной орфографии после OCR (версии Express, Professional, Antique, Webmaster);

• Текст после ручного набора или коррекции (версии Professional, Antique, Webmaster);

• Текст без формул и адресов Интернет (версии Professional, Antique, Webmaster);

• Дореволюционное правописание с переводом в современное (версия Antique);

• Дореволюционное правописание с сохранением старой орфографии (версия Antique);

HTML документ (версия Webmaster).

Текст в современной орфографии (OCR).

В этом режиме программа автоматически исправляет орфографические ошибки. Программа автоматически обнаруживает математические и химические формулы, повторяющиеся незнакомые слова и имена, аббревиатуры и прочие аномалии.

Текст после ручного набора или коррекции.

Отличие этого текста от текста после программы OCR состоит в том, что ошибки ручного набора совсем не такие, как ошибки сканирования. При ручном наборе обычно допускают опечатки, когда вместо нужной клавиши нажимают соседнюю и ошибки неграмотности, когда, например, вместо слова «корова» пишут «карова» и т.п.

Текст без формул и адресов Интернет.

По классификации авторов программы это тоже самое, что и текст после ручного набора, но если пользователь уверен, что в тексте нет формул и Интернет-адресов и выбирает этот режим, программа будет работать быстрее, поскольку анализаторы формул и адресов Интернет отключаются.

Тексты в дореволюционной орфографии вам вряд ли встретятся, поэтому мы не будем тратить время на их рассмотрение.

HTML документы

Текст анализируется и исправляется в соответствии с правилами экранной типографики для HTML-документов. Текст также проверяется на наличие ошибок ручного ввода.

Для того, чтобы начать работать с текстом, откройте его в окне программы с помощью команды меню Файл → Открыть, горячих клавиш + или щелкнув по кнопке Открыть файл. Все как в Word.

Программа поддерживает все основные типы текстовых файлов за исключением формата docx Word 2007.

Предположим, что файл, который нам необходимо обработать, имеет расширение doc.

Перейти на страницу:

Похожие книги

Разработка приложений в среде Linux. Второе издание
Разработка приложений в среде Linux. Второе издание

Книга известных профессионалов в области разработки коммерческих приложений в Linux представляет СЃРѕР±РѕР№ отличный справочник для широкого круга программистов в Linux, а также тех разработчиков на языке С, которые перешли в среду Linux из РґСЂСѓРіРёС… операционных систем. РџРѕРґСЂРѕР±но рассматриваются концепции, лежащие в основе процесса создания системных приложений, а также разнообразные доступные инструменты и библиотеки. Среди рассматриваемых в книге вопросов можно выделить анализ особенностей применения лицензий GNU, использование СЃРІРѕР±одно распространяемых компиляторов и библиотек, системное программирование для Linux, а также написание и отладка собственных переносимых библиотек. Р

Майкл К. Джонсон , Эрик В. Троан

Программирование, программы, базы данных

Все жанры