Просмотров: 7849

Вся правда об OCR


Любой современный человек, постоянно работающий с документами, время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? У многих пользователей такая регулярно повторяющаяся задача вызывает раздражение с примесью обиды за то, что приходится бессмысленно дублировать чью-то работу. Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации, ликвидация которой к тому же обещала солидные прибыли. Так были созданы системы известные в России как системы оптического распознавания текста, а в англоговорящих странах - как OCR.

Сегодня область применения программного обеспечения OCR существенно расширилась: вначале оно применялось преимущественно в финансово-банковской сфере, решая специфические задачи автоматизации по вводу анкетных и опросных данных, но сегодня OCR-программы  применяются уже повсеместно для работы с любыми документами. Трудно переоценить значение OCR-систем, превратившихся в такой необходимый софт и для офисного, и для домашнего компьютера.

Давайте кратко пройдемся по всем основным на рынке OCR-системам и выделим главные и характерные для них особенности.

Перед тем как начать рассмотрение OCR-систем, давайте сначала хотя бы минимально приведем их классификацию для удобства дальнейшего рассмотрения. На данный момент выделяют OCR-системы (Optical character recognition, OCR), а также ICR-системы (Intelligent Character Recognition, ICR). Несколько упрощая суть отличий между ними, можно считать, что ICR-системы – это следующее поколение в развитии OCR-систем.  В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha). Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR (Intelligent word recognition, IWR), в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются связные фразы целиком.

Существует несколько систем, причисляющих себя к категории ICR. Это, прежде всего,  FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим возможные альтернативы.

Известные отечественные продукты

ABBYY FineReader – один из лидеров рынка OCR, текущая его версия – 10. Он выпускается в версиях под все ОС Windows, а также под ОС Mac OS X и Linux. Доступна также ограниченная online-версия этого пакета для оптического распознавания. Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа. 

Заклятый конкурент FineReader, с которым его постоянно сравнивают – OmniPage от компании Nuance Communications (бывшая ScanSoft). Во многом очень похож по возможностям на FineReader, в частности, как и его конкурент, имеет очень хорошую поддержку распознавания фотографий полученных напрямик с цифровых камер, умеет конвертировать распознанный текст в форматы PDF, Microsoft Word и Excel, HTML, распознает более 120 языков. Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD.

Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода. Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, т.к. их возможности во многом эквивалентны.

Переходя к следующему заметный игроку на рынке OCR, это продукт CuneiForm от российской компании Cognitive Technologies. Самый большой текущий минус этого вне всяких сомнений замечательного проекта, что ещё в конце 2007 года Cognitive Technologies забросила свой продукт, после чего он никак не обновлялся и не развивался все это время. Сам движок этой OCR был выпущен под максимально свободной лицензией BSD в виде исходных текстов.

Из-за специфики технологии распознавания этой программы, которую, кстати, многие эксперты считают тупиковой, CuneiForm в состоянии уверенно распознавать только печатные тексты, и не в состоянии работать с рукописными и декоративными текстами, т.е. это – классическая OCR-система. Текущая и окончательная версия программы – 12. Написана она в виде кроссплатформенного приложения и может запускаться на Windows, Mac OS X, Linux.

На данный момент стараниями сторонних разработчиков этот движок распространяется и развивается под названием OpenOCR, впрочем, в силу открытости ядра, эту систему также использует множество других OCR-продуктов, например OCRFeeder.

Зарубежные продукты

Три других известных продукта, получившие малое распространение на территории СНГ в силу полного отсутствия представителей и маломальского маркетинга на этих бескрайних кириллических территориях, но известные на Западе и достойные хотя бы краткого упоминания, хотя бы потому, что также позиционируют себя как продукты ICR-класса. В нише некириллического распознавания они вполне могут составить здоровую конкуренцию даже лидеру рынка - FineReader.

Первый их них, это пакет Readiris от компании I.R.I.S. Group, представляет собой очень серьёзный OCR-продукт. Достаточно сказать, что начиная с cентября 2006 года технология от компании I.R.I.S. была лицензирована и используется в продуктах Adobe systems. Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке.

Нужно отметить, что это удачное стороннее решение “похоронило” свою собственную разработку Adobe - родного OCR-движка, - которая поставлялась многие годы в рамках решения Aсrobat Capture, и вот теперь новый OCR Adobe доступен в виде отдельного плагина в другие популярные продукты Acrobat. Последняя версия Readiris v12 поддерживает все версии Windows и MacOS X, а всего поддерживается работа с более чем 120 языками.

Следующая крупная разработка от американской компании ExperVision, IncTypeReader. Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе. Этот движок распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (Document Imaging Management, DIM), и заканчивая участием во многих американских программах по автоматической обработке форм (Forms Processing Services, FPS).

Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader. Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows, MacOS, Linux), в виде корпоративного web-сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.

Бесплатные OCR-решения

Интересный собственный движок развивает и Google. Tesseract – это первоначально закрытый коммерческий OCR-движок который создала Hewlett-Packard, работая над ним в промежутке между 1985 и1995 годами. Но после закрытия проекта и прекращения его развития, HP выпустило его код как open source в 2005 году. Разработку сразу подхватила Google, лицензируя уже свой продукт под свободной лицензией Apache. На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих.

Нужно при этом четко представлять, что Tesseract – это классическая OCR для “сырой” обработки текста, т.е. в нем нет ни графической оболочки для удобного управления процессом,  ни многих других дополнительных функций. Это обычная консольная утилита (есть версии для Windows, MacOS, Linux), на вход которой подается изображение в формате TIFF, а на выходе Tesseract выдает “чистый текст”. При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме.

Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например известные OCRopus или OCRFeeder. Но все же хочется отметить, что качество бесплатного CuneiForm/OpenOCR немного превосходит показатели Tesseract, хотя во многом это полностью аналогичные продукты.

Кроме бесплатного Tesseract ещё стоит упомянуть и SimpleOCR. SimpleOCR очень достойное решение для OCR, и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract. Продукт бесплатен для любого некоммерческого использования, и поставляется для Windows всех версий. Из сильных минусов – поддержка только двух языков: английского и французского.

Кроме традиционных десктоповых бесплатных решений, существует множество альтернативных онлайновых сервисов, бесплатно предлагающих OCR и основанных на самых разных и экзотических движках, которые вы можете опробовать самостоятельно, благо сделать это очень удобно и просто, вот только некоторые из них: CVisionTech, OnlineOCR, FreeOCR, OCRTerminal, GoodOCR.

Заключение

В заключении хочется отметить, что сейчас в мире существует более чем 100 самых различных OCR-движков, мы попытались рассмотреть и сравнить здесь лишь самые известные и качественные из них. Среди них существует также большое множество бесплатных OCR-программ любительского уровня, но их  качество распознавания существенно ниже их коммерческих аналогов. Для успешного решения  бизнес задач (и других серьёзных повседневных задач) лучше ориентироваться на коммерческие системы ICR-класса, которые были рассмотрены в первой половине этой статьи.

twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru pikabu.ru blogger.com liveinternet.ru livejournal.ru google.com bobrdobr.ru yandex.ru del.icio.us

Подписка на обновления блога → через RSS, на e-mail, через Twitter
Теги: , , ,
Эта запись опубликована: Понедельник, 19 сентября 2011 в рубрике Обзоры.

Оставьте комментарий!

Не регистрировать/аноним

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Зарегистрировать/комментатор

Для регистрации укажите свой действующий email и пароль. Связка email-пароль позволяет вам комментировать и редактировать данные в вашем персональном аккаунте, такие как адрес сайта, ник и т.п. (Письмо с активацией придет в ящик, указанный при регистрации)

(обязательно)


⇑ Наверх
⇓ Вниз