OCR Cuneiform. FAQ

Вернуться к оглавлению

Я распознал текст с помощью CuneiForm. В полученном тексте некоторые слова оказались выделенными цветом, хотя распознаны они верно. Почему?
Потому что программа производит дополнительный словарный контроль распознанного текста. Если слова нет в словаре (например, если это фамилия или название), то оно подсвечивается как сомнительное.

После распознавания в окне текстового редактора, в некоторых словах отдельные символы выделены цветным фоном, хотя слова распознаны верно, с чем это связано?
Это значит, что программа при распознавании определила, что высока вероятность неверного распознавания этого символа, а потому выделила его как сомнительный. В принципе, этот символ может быть распознан и верно, так что функция выделения сомнительных символов носит служебный характер, обращая внимание пользователя на те места в тексте, где вероятна ошибка распознавания.

После распознавания и редактирования текста в окне просмотра изображения текст выглядит слишком мелким, могу ли я его увеличить?
Масштаб изображения в окне просмотра можно изменить. Для этого надо нажать в окне просмотра правую кнопку мыши и из появившегося меню выбрать нужный масштаб.

После распознавания текста CuneiForm сохраняет строки исходного образа, т.е. вставляет символ "перевод строки" в тех местах, где заканчиваются строки. Если нужно отформатировать текст по своему усмотрению, то приходится делать много лишней работы по их удалению. Как этого избежать?
В настройках форматирования (Файл / Общие параметры / Форматирование) надо включить параметр "Сохранить расположение фрагментов".

Мне часто требуется распознавать не весь лист, а только один-два абзаца текста. Как можно сразу ограничить область распознавания нужным мне фрагментом документа.
Во-первых, можно воспользоваться TWAIN-диалогом Вашего сканера и сканировать не весь лист, а только требуемую его часть. Во-вторых, можно сканировать весь лист, а затем задать в CuneiForm область распознавания. Тогда программа будет распознавать только то, что попало в эту область, а остальную часть листа игнорировать. Чтобы задать область распознавания надо воспользоваться пунктом меню Распознавание / Область распознавания или соответствующей кнопкой на панели инструментов.

Я сканирую несколько листов подряд, причем мне нужно, чтобы в результате получился один текстовый файл в Word. Можно ли результаты распознавания нескольких листов объединить в один файл?
Конечно. Сначала распознаете первый лист, результат распознавания экспортируете в Word, сохраняете, но не закрываете документ. После распознавания следующего листа при попытке экспорта в Word программа "увидит" открытый документ и спросит, создавать ли новый документ Word или добавить результат распознавания к открытому документу. Так, каждый раз выбирая "Добавить" при экспорте очередного листа, Вы получите в Word единый документ с результатами распознавания всех листов.

Я работаю с рекламными материалами, в которых зачастую встречаются иллюстрации, включающие в себя надписи. CuneiForm разбивает такие иллюстрации на несколько частей, в частности, вырывает из них надписи и распознает как текст. Как этого избежать?
Этого можно избежать при помощи ручной разметки, проводимой после автоматической (пункт меню Распознавание / Авторазметка или кнопка Разметка на панели инструментов). Тогда у Вас будет возможность вручную выделить область, где находится картинка, и CuneiForm оставит картинку как она есть, не пытаясь вырвать из нее текст.

Материалы, с которыми я работаю, имеют сложное форматирование. Например, бывает, что иллюстрация "выступает в текст". В связи с этим вопрос: а можно ли в CuneiForm в режиме ручной разметки выделять не только прямоугольные блоки, но и блоки другой, более сложной, формы?
Да, можно. Для этого предусмотрено создание многоугольных блоков. Сначала создается обычный прямоугольный блок, а затем (при помощи кнопок панели инструментов с изображением знаков "+" и "-") к нему можно добавлять прямоугольники и вырезать из него прямоугольники. В принципе, оперируя маленькими прямоугольниками при большом увеличении изображения, можно даже получить границы блока, близкие к кривой линии.

Почитав документацию к CuneiForm, узнал, что в режиме ручной разметки есть функция нумерации блоков. Мне часто требуется менять порядок переноса информации в документ, и после распознавания приходится делать лишнюю работу по перемещению блоков. Поэтому сразу решил попробовать в действии функцию нумерации блоков. Действительно, номера блоков расставляются, однако результат распознавания прежний. В чем дело?
Функция нумерации блоков оказывает влияние на результаты распознавания, только в том случае, если отключен параметр "Сохранить расположение фрагментов". Отключить его можно в настройках форматирования (Файл / Общие параметры / Форматирование) при помощи соответствующего чек-бокса.

Я занимаюсь переводом архива старой технической документации в электронный вид. Как правило, приходится иметь дело со старыми ксерокопиями на плохой бумаге. После сканирования на изображении листа получается много "грязи", буквы получаются жирными, склеиваются. После распознавания в тексте много ошибок. Можно ли как-то повысить качество распознавания?
Можно попробовать менять параметры сканирования, например, Порог. В данном случае целесообразно уменьшать порог, чтобы уменьшить "черноту" на листе. Однако при слишком низком значении порога возможна уже обратная ситуация: на изображении текста начнут пропадать куски букв, буквы станут "разорванными", что отрицательно скажется на качестве распознавания. Так что значение порога можно подобрать экспериментально, заметив, при каком его значении качество распознавания на материале данного типа наилучшее.

Результаты распознавания в CuneiForm можно сохранять в файле, экспортировать в Word и Excel, регистрировать в электронном архиве Евфрат. Есть ли еще какие-то возможности передачи результатов распознавания в другие приложения?
Можно просто скопировать информацию в буфер обмена. Таким образом, можно передать информацию в любое приложение Windows, поддерживающее вставку данных из буфера.

Каковы возможности текстового редактора, встроенного в CuneiForm?
Встроенный редактор CuneiForm достаточно мощный и поддерживает все основные функции работы с современными текстовыми документами, а именно:

поддержка различных шрифтов;
работа с начертаниями шрифтов (жирный, курсив, подчеркивание, нижний и верхний индекс);
форматирование абзацев (ширина, отступ, выравнивание текста);
работа с таблицами (добавление новых, редактирование существующих
вставка и удаление новых строк и колонок, разделение и объединение ячеек, изменение ширины колонок, настройка обрамления ячеек);
вставка иллюстраций, возможность изменения их размера;
вставка рамок, перемещающихся поверх текста (кадров), с возможностью помещения в них текста и графики;
разбиение текста на страницы
автоматически и вручную;
возможность разбиения текста на колонки;
возможность разбиения текста на разделы, в каждом из которых может быть применено свое форматирование текста;
возможности поиска и замены текста;
печать документа;
сохранение документа в форматах RTF, HTML, TXT

Зачем нужна программа пакетного распознавания?
Программа пакетного распознавания позволяет сформировать набор графических файлов, называемый пакетом, и без участия пользователя в обработке каждого из этих файлов распознать заключенный в них текст.

Работа с программой организована следующим образом. Сначала пользователь создает новый пакет, добавляет в него графические файлы и настраивает параметры обработки пакета. Затем он запускает процесс обработки пакета. Программа пакетного распознавания последовательно обрабатывает все входящие в пакет графические файлы, создает файлы с распознанным текстом и помещает их в список результатов. Если при обработке тех или иных входящих в пакет графических файлов случаются ошибки, программа записывает сообщения о них в отдельный список. Распознав (успешно или неуспешно) текст во всех файлах, программа завершает процесс обработки пакета.

А разве есть какие-то преимущества у сетевого сканирования? Ведь все равно сканер подключен к компьютеру Иванова и надо идти к нему, чтобы положить лист в сканер!
Если сканер в локальной сети один, то ходить к нему, чтобы положить или забрать лист, все равно придется. Зато с программой сетевого сканирования Вы сможете сканировать и обрабатывать нужные материалы прямо на Вашем компьютере, не отвлекая от работы Иванова.

Мне нужно будет ежедневно сканировать и распознавать большое количество документов. В связи с этим вопрос: программа пакетного распознавания может работать только с набором файлов, заданным при формировании пакета? Или можно изменять состав пакета - добавлять, удалять файлы?
Состав пакета можно редактировать - добавлять и удалять файлы. Немаловажной возможностью программы пакетного распознавания является возможность работы в ждущем режиме. То есть, если в папку, обозначенную пользователем, как папка с исходными материалами, поступают новые графические файлы, программа тут же начинает их распознавание. Это позволяет совместно с программой пакетного сканирования организовать так называемую потоковую обработку. Это может быть полезно в случае, когда необходимо обрабатывать большое количество документов. Настроив программы потокового сканирования и распознавания, пользователю останется только лишь класть листы в сканер, сканирование и распознавание будут идти автоматически.

Предположим, я при помощи программы пакетного распознавания организовал процесс потоковой обработки документов. А не грозит ли мне рано или поздно переполнение жесткого диска, ведь помимо результатов распознавания на диске накапливаются графические образы документов?
Ну, во-первых, графические файлы в формате TIFF G4 занимают не так много места. А во-вторых, в программе пакетного распознавания Вы можете указать, что делать с исходными графическими файлами после распознавания. Их можно оставить на месте, перенести в заданную папку или вообще удалить.

Возможна ли обработка сразу нескольких пакетов?
Да, возможна. Причем программа распознает по очереди по одному файлу из каждого пакета. То есть, большие (с большим количеством файлов) пакеты не будут задерживать распознавание маленьких пакетов.

У меня не получается установить программу под Windows 2000. Процесс установки всякий раз прерывается. Что делать?
Эта проблема вызвана особенностью местонахождения папки для временных файлов в Windows 2000. Необходимо сделать путь к папке TEMP более коротким, например "C:/TEMP". Для этого нужно:

Открыть Control Panel и выбрать пункт System или нажать правой кнопкой мыши на значке My Computer и выбрать пункт Properties;
Выбрать закладку Advanced;
Выбрать пункт Environment Variables;
В разделе User Variables for NameUser выбрать пункт TEMP и нажать кнопку Edit после чего ввести новый путь к директории для временных файлов.