[новости]
[коммерческие продукты]
Download
FAQ
[поддержка]
[отзывы пользователей]

АДАПТИВНОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ. (В. Л. Арлазаров, В.В. Троянкер, Н.В. Котович). ПРОДОЛЖЕНИЕ

Большой практический интерес представляет измерение величины
- среднеквадратичного отклонения; т.к. она придает числовое выражение важному понятию - "качество текста". В этой модели
обретает конкретный физический смысл - описывает вариации которые возникают в конфигурации пикселов, описывающих оригинал символа, в процессах печати и сканирования. Применение шкалы основанной на мерах рассеяния подобной вышеупомянутой найдет применение в различных аспектах распознавания символов. Перечислим наиболее важные:

  • Верификация результатов кластеризации. Имеется ввиду, что кластер с рассеянием существенно отличным от среднего по выборке должен вызывать подозрение и являться кандидатом на дополнительную проверку.
  • Динамическая настройка различных пороговых констант, управляющих распознаванием.
  • Экстремальные значения s могут указывать на ситуацию в которой сама адаптация к данной выборке является не выгодной ибо необходимая статистическая информация в ней отсутствует.
  • Автоматическая селекция документов для дальнейшей обработки.

Интересным с практической точки зрения является вопрос о том, насколько близки параметры реального кластера к параметрам разработанной здесь модели. Ниже приводится оценка, позволяющая определить как с ростом количества символов параметры кластера сходятся к теоретическим.

Возьмем произвольную ячейку кластера. Пусть p - вероятность появления здесь черного пиксела при очередном добавлении символа в этот кластер. Очевидно, что эта вероятность фиксирована самой моделью и зависит только от положения ячейки внутри сетки. Таким образом процесс появления черных пикселов в данной ячейке удовлетворяет схеме испытаний Бернулли. В процессе физической реализации попадания символов в кластер в этой ячейке существует x - частота попадания сюда черного пиксела. Это случайная величина, сосредоточенная около p и по центральной предельной теореме[2] отклоняющаяся от нее согласно нормальному закону распределения, следовательно

Упростим неравенство, учитывая что p(1-p)<=1/4

Зададимся количеством символов N=121(смотри оценку количества букв на странице текста), тогда это соответствует уровню значимости 0.0618 и в итоге получаем, что наше предположение выполняется с вероятностью не меньшей чем 1-2*0.0618=0.088. В этом рассуждении не накладывалось никаких специфичных условий на ячейку, следовательно вывод справедлив для всех ячеек данного кластера. Таким образом можно утверждать, что при указанном объеме кластера в почти 90% его ячеек абсолютная погрешность отклонения от модели составит не более 0.07. Фактически вероятность будет даже больше, т.к. благодаря упрощению неравенства мы получили лишь оценку снизу. При разработке конкретной процедуры вычисления расстояния до кластера или надежности встает вопрос о корректности сравнения физически получаемых значений с константами выработанными посредством мат. модели. Обладая подобным механизмом, можно измерить и компенсировать некорректность такого сравнения.

Предыдущая страница Следующая страница
 
[новости] [технологии] [коммерческие продукты] [download] FAQ [поддержка] [о сайте]