AfterScan — автоматическая корректура тестаАвтор: Роберт Басыров Опубликовано: 13.11.2007 Источник: SoftKey.info 
Работникам библиотек, научным работникам и студентам корректура электронных текстов доставляет много хлопот. Работа по правке отсканированного текста даже небольшой книжки может растянуться на несколько дней. Объем этой работы зависит прежде всего от качества распознавания. Если оно не очень высокое, то работы будет много. Как правило, такая корректура проводится вручную в самой программе распознавания или в текстовом редакторе. Но есть одна программа, которая может существенно облегчить корректуру текстов, — AfterScan.
Самая совершенная программа распознавания все равно будет допускать ошибки в распознанном тексте. Причин таких ошибок довльно много, и вызваны они не только алгоритмами программ распознавания, но и другими обстоятельствами. На качество распознавания влияет и чистота листа бумаги с текстом, и технические параметры сканера, и даже наличие фоновых картинок, размещенных за текстом. Ошибки, возникающие в результате этого, придется подправлять, что называется, "ручками". А это может растянуться на дни, и на иную книгу уходит до нескольких десятков человеко-часов. Автоматизировать эту работу можно с помощью программы AfterScan, единственной на данный момент программы обработки текста после сканирования.
Если быть точным, то AfterScan — это программа не только для обработки текстов после распознавания. Это только один из режимов работы программы. AfterScan можно использовать для корректировки текста, введенного вручную, для обработки текстов с древним языком, а также текстов из Интернета. Для работы в этих режимах созданы специальные версии программы: Webmaster — для текстов из Интернета и Antique — для древних текстов.
 | | Главное окно программы |
Для правки текста после распознавания имеются две версии программы: Express — самая простая и Professional — с увеличенными возможностями. Версия Professional может работать с текстом, набранным от руки, а также с текстом без формул и интернет-адресов. У нее есть возможность работы с пользовательским словарем. При постоянной работе с отсканированным текстом эта функция становится ключевой, так как позволяет корректировать в автоматическом режиме самые типичные ошибки. Разница в стоимости версий (Express и Professional) всего в 20 долларов. И словарь стоит этих денег.
Еще одна особенность — версия Professional позволяет сохранять журнал исправлений для каждого документа. Это тоже немаловажная особенность, которая позволяет распределять работу по времени. Журнал с ошибками сохраняет все найденные ошибки при анализе текста, а также их исправления. В результате по окончании рабочего дня работу можно спокойно завершить, документ сохранить, а с утра продолжить правку с того места, где она остановлена. В версии Express приходится все делать за один раз либо проводить анализ текста повторно.
AfterScan — это не просто программа проверки орфографии, которых на рынке программ имеется довольного много. Это особый тип программы для проверки текстов, способной работать с большим объемом текста и исправлять ошибки не на основе встроенного словаря, а на основе вероятностных и эмпирических знаний о структуре языка. Программа на данный момент понимает русский и английский языки — самые актуальные для нас.
Работа по правке начинается сразу после распознавания в программе OCR. К сожалению, AfterScan не входит в число программ, поддерживаемых в качестве программ для экспорта. Поэтому в ABBYY FineReader (самой распространенной у нас программе для распознавания текста) при экспорте текста в выпадающем списке выбора места назначения экспорта придется выбрать "Буфер обмена". При выборе формата экспортируемого текста лучше выбрать "Форматированный текст". В этом случае сохранится форматирование, что облегчит последующую работу.
AfterScan имеет следующие режимы работы: интерактивный и автоматический. Автоматическим режимом можно пользоваться при небольших текстах либо при отработанном пользовательском словаре. Интерактивный режим подразумевает пошаговое выполнение очистки с корректировкой пользователем параметров очистки. Использование интерактивного режима позволяет не только точнее выполнять правку, но и лучше понять смысл и алгоритмы работы программы. После выбора интерактивного режима придется немного подождать: идет обработка программой текста.
Процесс обработки запускается "горячей" клавишей F8 или кнопочкой "OCR Чистка" на панели команд программы. При выборе любого из режимов сначала происходит анализ текста на наличие ошибок. В зависимости от мощности компьютера, объема текста и качества первичного распознавания время этого анализа может достигать нескольких десятков минут.
В автоматическом режиме сразу после анализа AfterScan произведет корректуру текста согласно выбранным в начале параметрам. В ручном режиме автоматический этап корректуры проходит в три этапа.
 | | Вывод статистики ошибочных слов |
На первом этапе происходят знакомство с результатами анализа и их ручная корректура. В панели "Правильные слова" — слова, которые, по мнению программы, не нуждаются в корректуре. В панели "Ошибочные слова" — то, что, по мнению программы, надо править. Необходимы проверка обоих списков и перенос слов из одной панели в другую. Программа распределяет слова довольно правильно, но на качество этого распределения очень сильно влияет качество распознавания текста в программе распознавания. Чем хуже распознавание, тем больше работы по распределению.
AfterScan выводит не просто сомнительные для него слова, а слова, повторяющиеся несколько раз. И если не проверить этот список, то придется больше работать в режиме ручной правки. При больших объемах повторяющихся слов есть смысл сверяться с исходным текстом на сканах: так точнее можно определить типовые ошибки сканирования для конкретного текста.
 | | При автоматическом исправлении приходится немного подождать |
Второй этап — это аналитическая корректура текста. Исправив текст в соответствии со статистическими поправками и сообщив о проведенной работе и оставшихся проблемах, AfterScan предложит попробовать исправить ошибки аналитическим методом. Программа будет предлагать вам корректуру слов согласно правилам словообразования в русском языке.
Третий этап — это отчет программы о проделанной автоматической работе и переход к ручной корректуре. В этом отчете можно увидеть результаты работы по правке, а также сравнительное время работы в автоматическом и ручном режимах. При обработке несложной книги в сорок страниц, по нашему опыту, можно сэкономить более одного часа работы.
Однако без ручной работы все равно не обойтись. Ее можно проводить как с помощью журнала исправлений, так и без него. Журнал — это список всех измененных и всех нераспознанных программой слов. Это не значит, что в этом списке есть все неверные слова. Ни одно автоматическое средство не в состоянии правильно распознать все ошибки. Поэтому ошибки вполне возможны, и исправить их можно при ручной вычитке текста. Однако при нестрогих требованиях к качеству распознавания ручной вычиткой можно пренебречь, положившись только на журнал.
 | | Журнал исправлений |
Программа распределит в журнале все слова по типам: распознанные, нераспознанные, новые и аномалии. Такое распределение сопровождается цветовой подсветкой строки: зеленый цвет — норма, красный — ошибка. Если вы согласны с программой, то поставьте флажок в чекбоксе с нужным словом. Если не согласны, то снимите флажок. Если сделать строку со словом активной, то слово в тексте автоматически выделится, а текст сместится таким образом, чтобы слово стало видно. Править можно с помощью словаря либо вручную. Вызовите правой кнопкой контекстное меню и выберите режим правки, внесите исправление. Если исправленная ошибка типовая, то AfterScan предложит произвести изменения столько раз, сколько раз она встречается в тексте. (Версия Professional сделает все это автоматически, да еще и даст возможность внести слово в словарь, чтобы в дальнейшем корректировать его автоматически.)
Ручная корректура с помощью журнала — самый долгий период работы, в чем-то аналогичный ручной правке текста в любой другой программе проверки орфографии. Если выбрать правку без журнала, то правку можно сочетать с вычиткой текста, тем более что все неправильные, по мнению программы, слова можно находить в тексте благодаря цветовой подсветке (журнал не так уж и необходим). Вариантов подсветки — шесть, в зависимости от уровня правильности или неправильности слова.
После корректуры текста программой (или вручную) можно приступать к форматированию текста. Форматировать можно в AfterScan, но инструменты для этого здесь достаточно ограничены: шрифт, размер шрифта, выравнивание, отступы, да, пожалуй, и все. Лучше воспользуйтесь кнопкой передачи текста во внешний редактор.
Резюме
AfterScan на данный момент единственная программа, которая может автоматически править ошибки, возникающие при сканировании и распознавании текста. Корректура текста — трудоемкое занятие, и чем больше текст, тем больше работы. Автоматическая корректура с помощью AfterScan — серьезное подспорье для библиотекарей, научных сотрудников, студентов и просто любителей книг. |