CUNEIFORM 2000 - СИСТЕМА РАСПОЗНАВАНИЯ НОВОГО ТЫСЯЧЕЛЕТИЯ
17 июня 1999 г. в элитном клубе UP&DOWN (ресторан "Три пескаря") компания Cognitive Technologies представила новую версию популярной системы распознавания текстов CuneiForm 2000
Последние достижения в области компьютерных технологий позволяют разработчикам ПО максимально использовать мощности современных компьютеров и применять технологии, которые ранее реализовать было невозможно. В отличие от предыдущих промышленных разработок в области оптического распознавания в новой версии OCR CuneiForm 2000 удалось использовать в качестве основного не один, а целую совокупность алгоритмов, значительно повышающих точность и скорость распознавания, а также существенно улучшающих характеристики других модулей системы. Разработчиками было создано принципиально новое ядро распознавания.
Кардинальным отличием нового подхода от предыдущих является наличие Экспертной системы внутри ядра, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма, и выбирать оптимальный вариант (метод "КОГНИТИВНОГО АНАЛИЗА"). Метод построен на базе большого научного и инженерного опыта коллектива компании (ранее отдела искусственного интеллекта Института системного анализа РАН). Элементы реализованной технологии в течение ряда лет успешно используются Cognitive Technologies в ряде крупных корпоративных проектов.
В CuneiForm 2000 реализованы следующие НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ:
- "АДАПТИВНОЕ РАСПОЗНАВАНИЕ" - метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, т.е. используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность безшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания. Технология адаптивного распознавания является мощным развитием технологии самообучающихся алгоритмов, реализованных в предыдущих версиях системы CuneiForm.
- НЕЙРОННЫЕ СЕТИ. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.
Кроме того, для повышения точности воссоздания исходной формы таблицы в выходном документе был разработан метод "МЕРИДИАННОЙ СЕГМЕНТАЦИИ ТАБЛИЦ".
Результаты исследований, достигнутые разработчиками представляют большой научный интерес, опубликованы в трудах РАН и будут докладываться на ближайших международных симпозиумах по проблемам распознавания.
Одной из важнейших особенностей новой версии является высокая точность воссоздания формы исходного документа. Эта возможность получила название "WHAT YOU SCAN IS WHAT YOU GET". Дело в том, что до настоящего времени пользователи систем распознавания тратили достаточное количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т.д. В новой версии эта проблема успешно решена, что уже получило высокую оценку посетителей выставки Комтек'99 и бета-тестеров системы.
Для профессиональных пользователей в новой версии реализован удобный процесс работы с большими объемами информации - пакетное сканирование и пакетное распознавание. Для офисного использования существует возможность распределенной работы в сети. Предусмотрен режим администрирования.
НОВЫЕ ВОЗМОЖНОСТИ CUNEIFORM 2000
Помимо информации о новой версии на презентации были сделаны доклады о истории развития OCR-технологий в России и перспективах развития OCR-технологий в начале XXI века. (Тезисы выступления генерального директора компании Cognitive Technologies, д.т.н., профессора В.Л. Арлазарова прилагаются.)
Гости отметили высокий уровень подготовки мероприятия. По разным оценкам на презентацию системы нового тысячелетия CuneiFrom 2000 было затрачено порядка $15 - $20 тыс. долларов.
|