ABBYY FineReader 10 – оцифровка документов для всехАвтор: Майкл Демидов Опубликовано: 24.03.2011 Источник: SoftKey.info 
Развитие электронных средств коммуникации требует перевода в соответствующий формат и основных единиц общения – документов. Сегодня так или иначе заметен серьезный тренд к дублированию обычного бумажного документа электронным с перспективой полной цифровизации документооборота. Это зависит не только от привычек пользователей, но и от совершенства программного обеспечения, которое проводит эти операции. Сегодня мы расскажем о лидирующем решении в этой области – приложении ABBYY FineReader 10.
ABBYY FineReader – это OCR-программа, позволяющая организовать процесс ввода бумажных документов с их дальнейшим оптическим распознаванием в распространенных офисных форматах. Подобная функциональность востребована для оцифровки как простого текста, так и таблиц и графиков, а также для внесения изменений в существующие архивные форматы электронных документов (в приложении можно открыть незащищенный PDF-файл или загрузить TIFF-изображение, после этого распознать его, внести необходимые изменения и экспортировать результат в такой же формат). Рассмотрим основные возможности приложения на практике.
Работа ABBYY FineReader 10 организована следующим образом – после установки пользователь получает доступ к функциональному редактору, имеющему собственный движок захвата данных для сканеров и МФУ, а также специализированные механизмы обработки и распознавания полученных изображений в текст, таблицы, графику. Пользователь может использовать в качестве источника обычные изображения документов, например их фотографии, полученные на обычный фотоаппарат и в рассматриваемой 10-й версии на камерофон (сотовый телефон со встроенной фотокамерой). Минимально допустимым разрешением снимка является 2 мегапикселя, при этом приложение не делает разницы между тем, снят ли документ со вспышкой, макрофокусом – важно то, что он не должен быть размыт, соответственно, камерофон все-таки должен быть оснащен хотя бы самой примитивной системой автофокусировки. Разработчики приложения также сделали акцент на пользователей, использующих непрофессиональную технику и делающих копии документов в «полевых» условиях – при загрузке изображений в программу происходит их автокоррекция (выставляется нужный уровень экспозиции, картинка разворачивается, удаляются некоторые виды артефактов в виде паразитарных шумов, геометрических искажений оптики и так далее). Движок распознавания стал лучше определять развороты и границы листа. Если пользователь собирается работать не со всей зоной отсканированного документа, он может сразу же в программе обрезать лишние данные. Аналогично применимо к цветовым профилям документа. Сами же данные можно легко загрузить прямо из памяти фотоаппарата через интерфейс, не прибегая к промежуточному копированию фото на компьютер, где установлен ABBYY FineReader.
Самое главное в OCR-приложении – механизм, отвечающий за корректную передачу данных бумажного документа в макет электронного. Иными словами, речь идет о том, что качественная программа для сканирования и оптического распознавания должна точно определять, что именно распознается, и сохранять структуру документа. В ABBYY Finereader для этих целей используется специальная разработка под названием ADRT (Adaptive Document Recognition Technology). Она позволяет распознавать документ не постранично, а сразу целиком. Это позволяет достичь высокой точности передачи элементов самого документа – надстрочного и подстрочного текста, заголовков, сносок, подписей, таблиц, колонтитулов в нужном форматировании и сохранении их связей в рамках файла. Так, сноски сохраняются активными, колонтитулы с номерами страниц проставляются автоматически и так далее. Это существенно экономит время на приведение результирующего документа в соответствие исходному при проверке и вычитке. Подобная функциональность реализована на должном уровне только в продукте от ABBYY, что позволяет признать его лидером по качеству оцифровки.

После проведения операции по оптическому распознаванию текста пользователь может запустить встроенный анализатор правописания. Он предназначен для базовой проверки орфографии для 39 основных мировых языков, включая ряд «мертвых» (например, латыни). Само же число поддерживаемых языков распознавания постоянно увеличивается от версии к версии и достигло на сегодняшний день 186. ABBYY не только стремится количественно закрыть потребности в распознавании самих документов на этих языках, но и расширяет и совершенствует качество движка для наиболее востребованных групп. Так, в 10-й версии разработчики констатируют, что программа стала лучше понимать азиатские тексты на 30%, а европейские – на 20%. Естественно, что OCR-механизм умеет работать и с документами, составленными на двух и более языках, – для этого в настройках распознавания необходимо выбрать нужные языки. Если же в тексте встречаются специальные символы, которые не входят в распространенные таблицы, то пользователь может использовать функцию самообучения в программе. Она представляет собой интерактивный мастер распознавания, который может запоминать распознанные элементы и на их основе создавать пользовательские шаблоны для дальнейшего их применения к оставшимся объемам текста.

Очевидно, что следующим шагом после распознавания текста является сохранение результатов в распространенные форматы. В этом отношении ABBYY FinеReader 10 поддерживает не только большинство офисных форматов, но и специализированные функции по созданию электронных книг в HTML с разбивкой по главам с автолинковкой, а также востребованный в бизнес-среде формат PDF/A для электронных архивов. Строго говоря, работа с PDF – это отличительная возможность приложения, поскольку она определяет его востребованность не только среди домашних пользователей, которые используют приложение для создания электронных архивов домашних библиотек, упрощении операций по вводу объемов текста при работе с несколькими источниками (написание рефератов и так далее), но и для корпоративных пользователей, которым нужно получить удобный в обращении электронный документ. В ABBYY FineReader есть возможности по созданию PDF-файла из отсканированных изображений, а также обратной декомпиляции PDF-файла на отдельные страницы с целью сохранения в другом формате данных. Файлы можно оптимизировать, добавлять к ним метаданные, устанавливать защиту и параметры совместимости с разными версиями Adobe Reader.

ABBYY FineReader удобен тем, что в приложении реализовано несколько средств для автоматизации выполняемых рутинных операций. В частности, при первом старте приложения пользователь видит окно мастера с предустановленными сценариями конвертации или сканирования в определенные форматы. Помимо него существует отдельный менеджер сценариев, который позволяет создать последовательность выполняемых действий в программе, которая будет применяться в зависимости от указанной пользователем задачи. Естественно, что доступно и последовательное сканирование без мастеров.
ABBYY FineReader изначально рассчитан на работу на компьютерах с операционными системами семейства Microsoft Windows, включая последнюю версию Windows 7. Также примерно год назад эта программа была портирована на платформу Mac OS, где фигурирует под названием ABBYY FineReader Express Edition for Mac. Разница от Windows-версии состоит в меньшем количестве поддерживаемых языков, ориентации на формат PDF, работе по типовым сценариям. В случае с Windows 7 программа полностью совместима с особенностями данной операционной системы («библиотеки», использование WIA-устройств, отображение элементов интерфейса в супербаре и так далее).
В настоящее время ABBYY FineReader 10 представлена в трех различных версиях, отличающихся между собой по реализации некоторых функциональных элементов. В данном материале мы вели речь про ABBYY FineReader 10 Professional Edition, которая предназначена для использования как дома, так и в офисе и представляет собой максимально функциональное решение. Для домашнего использования вполне достаточно ABBYY FineReader 10 Home Edition, которая не поддерживает ряд мало востребованных функций (например, отправки распознанных документов по электронной почте). Производитель также максимально упростил ее интерфейс, оставив в ней поддержку только типовых сценариев без возможности отдельной самостоятельной проверки орфографии в документе и внесении правок в него во встроенном редакторе. Для корпоративных пользователей, особенно из числах крупных компаний, имеет смысл приобретать ABBYY FineReader 10 Corporate Edition. Данная версия адаптирована под работу в локальных сетях и может быть установлена автоматизированно в массовом порядке на нужных рабочих станциях с задействованием наиболее популярных методов (служба каталогов Windows, командная строка, SMS и так далее). В ней реализована поддержка папки-пула, в которую будут попадать отправляемые на распознание документы, есть возможность совместной работы над файлами, пользовательскими шаблонами и словарями, задействования МФУ и сканеров. Управление ABBYY FineReader в этом случае осуществляется с помощью консоли администрирования, которая позволяет видеть количество активных копий программ (поскольку продукт лицензируется не по количеству мест).
|