OCR CuneiForm. Проект Бесплатные советы: скачайте бесплатно программы, обзоры, описания, рекомендации

Ура! Сообщество бесплатных программ пополнилось, наконец-таки, софтиной, которая может распознавать отсканированный текст на русском языке. Может, где-то за бугром и есть бесплатные программы, которые могут распознать латиницу, но с кириллицей такого не было. А флагман русскоязычного OCR (оптического распознавания текста) оставался платный FineReader (сейчас у компании ABBYY версия FineReader 9.0 , которые наши доблестные пираты, наконец-то взломали). В славные 90-е годы у FineReader был более-менее сносный конкурент CuneiForm , но через какое-то время этот продукт от Cognitive Technologies завис на версии 2000 года. Я даже думал, что CuneiForm спекся, однако,...
однако в декабре 2007 г. руководство Cognitive Technologies решилось передать CuneiForm в Open Sourse . Правда пока CuneiForm вышел под грифом Freeware , версия у продукта 12. Дистрибутив CuneiForm 12 размещён на DVD диске к февральскому номеру "Hard"n"soft".
Вчера я устанавливал этот продукт на свой комп и был расстроен, все попытки отсканировать любой текст заканчивались провалом, то есть вылазило окошко "Ошибка при передачи данных ". Ну думаю, фигня это, а не софт и думал было удалить прогу, а дистрибутив стереть с жёсткого диска...
но передумал. А сегодня ко мне пришла идея, что если невозможно отсканировать текст через CuneiForm напрямую, то можно это сделать через другую программу, то есть затем открыть изображение. Через что-же отсканировать? - подумал я. Ведь если сканировать через платные графические программы (Photoshop или ACDSee), то смысл от бесплатности CuneiForm улетучивается.
В моем арсенале бесплатных графических программ есть GIMP 2.4.2 , XnView 1.92 и IrfanView 4.10. Я начал с последней и сохранил полученное изображение в формате tiff (другие, вроде bmp или jpg в данном случае не подойдут). На выходе получился файл ScanImage001 размером 412 Кб. Сразу скажу, что для испытания я использовал страницу 13 из учебника "Философия" под ред. В.Д.Губина (М., 2004). После распознавания в полученном тексте было несколько ошибок (а где их не бывает, в том же FineReader они имеются).
Затем я отсканировал тот же текст через GIMP. Попутно отмечу, что прога по времени достаточно загружалась (ещё бы, это же не вьювер, а полноценный графический пакет). Файл Без имени на выходе оказался тяжёлым 3,37 Мб, но зато качество распознавания его в CuneiForm было чуть получше.
Чемпионом же тестирования оказался XnView, давший на выходе файл scan 1 размером 422 Кб, который CuneiForm распознал лучше остальных.
Итак, для начала неплохо. Надеюсь, что новые версии CuneiForm позволят обходиться без вспомогательных программ.
Поживём-увидим.

Недавно занялся поиском бесплатных приложений для распознавания отсканированного текста, или как их еще называют программы OCR. Желание платить за популярного монстра ABBYY FineReader, совсем не было, но как оказалось, предлагают очень мало вариантов программ такого плана для бесплатного использования. Первый попавшийся вариант оказался , пожалуй, одна из самых популярных программ для Windows, но в своем нынешнем виде не дружит с русским языком. Один из читателей блога, предложил попробовать труды отечественных разработчиков .

Процедура установки стандартная, перечень из нескольких стандартных вопросов, где самое запоминающееся это лицензионное соглашения и выбор папки, куда будут инсталлирована программа. Несколько секунд ожидания и все готово к работе. Ничего лишнего не устанавливается и дополнительно программные компоненты тоже не придется скачивать и устанавливать.

Запустив программу, получаем стандартный для OCR интерфейс, меню из нескольких пунктов, большие кнопки для доступа к основным функциям и основное окно разбито на две части для изображения и готового текста которые распознали.

Самая первая кнопка в панели инструментов, где нарисованная волшебная палочка, это мастер, запустив которые пройдем все этапы, начиная от сканирования и заканчивая готовым текстом пригодным для редактирования, которые заботливо будет предлагать выбрать нужные настройки. Получатся этакий полуавтоматический режим, делам только общие настройки, не вникая в нюансы.

Можно пойти по более сложному пути, пройдясь ручками по каждому пункту отдельно, зато сможете сделать кучу дополнительных правок и тонких настроек, которые позволят получить более качественный конечный результат.

С помощью кнопки, где нарисован сканер, можем отсканировать нужный документ или загрузить готовую картинку. После чего получим панель с инструментами с помощью, которой можем подкорректировать изображение, повернуть его и выбрать область для распознавания.

Кнопочка с циркулем, позволяет сделать разметку страницы, выделяя колонки, изображения и блоки с текстом. Все блоки, которые будут найдены, можно редактировать, передвигая их и изменяя размеры с помощью мыши. Поводите курсором около синих линий и увидите, как он будут менять свою форму, дальше, думаю, сами разберетесь.

Ионкой с очками, распознаем непосредственно текст, в подготовленных областях. После того как текст будет готов, щелкните по любой букве и увидите тот участок рисунка картинки, на котором она была найдена.

Кнопка с самолетиком предназначена для сохранения распознанного текста в файлы или в Word Excel, почему опять этот стандартный набор непонятно, ведь есть еще куча замечательных текстовых редакторов.

В зависимости от того на каком этапе будете находиться панель инструментов будет менять свое содержимое, предлагая нужные на конкретном этапе инструменты.

Теперь перейдем к печальному на Windows 7 отказался работать со сканером, программа его видела, сканер даже начинал гудеть, и на мониторе бежала пунктирная линия свидетельствующая что идет передача данных, а в конце выбрасывала ошибку. Все пляски с бубном и чтения форумов не дало положительных результатов. В том числе редактирование файла «Face.INI», где по рекомендации было исправлено «TWAIN_TransferMode=memory-buffered» на TWAIN_TransferMode=memory-native». В итоге пришлось делать обходной маневр, сканировать текст стандартными средствами Windows, а в CuneiForm подсовывать готовую картинку.

Еще плохо, что не поддерживаются pdf фалы самой программой. Приходится прибегать к обходным маневрам, использовать сторонние программы чтоб из pdf документов делать картинки, а потом задействовать OCR. Но опять из-за низкого разрешения картинок, качество распознавания текста очень низкое, поэтому потом приходится много чего исправлять руками.

Чуть не забыл, первый запуск на Windows Vista и 7 лучше делать от имени администратора, иначе программа впадет в транс на несколько минут, не подавая признаков жизни.

Программа действительно работает со всеми основными языками, их около 20 штуку включая русском, английском, украинском, немецком, французском, испанском, итальянском и смешанном русско-английском.

CuneiForm оставила двоякое впечатление, вроде работает, но не полностью, скорей всего из-за того что работу на программой прекратили в 2007 году, а после открытия исходных кодов команда которая могла дальше развивать проект так и не собралась. Приятно, что понимает русский язык, но придется немного приноровиться, пока научитесь подбирать нормальные параметры для сканирования, чтоб результаты распознавания удовлетворяли. Сейчас нахожусь именно на этом этапе.

В нынешнем виде не могу рекомендовать для использования обычным пользователям. Кто рискнул попробовать CuneiForm, морально подготовитесь, что с первого раза хороших результатов не получится, и решение возникших проблем придется искать самим.

Работает в 32-х и 64-х битных операционных системах. Интерфейс полностью на русском языке, и похоже других вариантов не предлагается.

Страница для бесплатного скачивания CuneiForm http://www.cuneiform.ru/downloads/index.html

Последняя версия на момент написания CuneiForm V12

Размер программы: архив 33,3Мб

Совместимость: Windows Vista и 7, Windows Xp

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.
wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install
Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

L
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

O
Сохраняет в файл.

F
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

Fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

Singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор - это YAGF и :

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем.

Рано или поздно, все кто часто работает с офисными программами, сталкиваются с типичной задачей - отсканировать текст с книги, журнала, газеты, просто листочков, а затем перевести эти картинки в текстовый формат, например, в документ Word.

Чтобы это сделать необходим сканер и специальная программа для распознавания текста. В этой статье пойдет речь о бесплатном аналоге FineReader - CuneiForm (о распознавании в FineReader - ).

1. Особенности программы CuneiForm, возможности

Скачать можно с сайта разработчика: http://cognitiveforms.com/

Программа для распознавания текста с открытым исходным кодом. К тому же, работает во всех версиях Windows: XP, Vista, 7, 8, что радует. Плюс к этому добавьте полный русский перевод программы!

Плюсы:

Распознавание текста на 20 самых популярных языках мира (английский и русский само собой входит в это число);

Огромная поддержка различных печатных шрифтов;

Проверка по словарю распознанного текста;

Возможность сохранения результаты работы в нескольких вариантах;

Сохранение структуры документа;

Отличная поддержка и распознавание таблиц.

Минусы:

Не поддерживает слишком большие документы и файлы (более 400 dpi);

Не поддерживает на прямую некоторые типы сканеров (ну это не страшно, в комплект к драйверам сканера идет и спец. программа для сканирования);

Дизайн не блещет (но кому он нужен, если программа в полной мере решит задачу).

2. Пример распознавания текста

1) Открываем требуемую картинку в программе CuineForm (файл/открыть или «Cntrl+O «).

2) Чтобы приступить к распознаванию - нужно сначала выделить различные области: текста, картинок, таблиц и пр. В программе Cuneiform это можно сделать не только в ручную, но и автоматически ! Для этого щелкните по кнопке «разметка » в верхней панели окна.

3) Спустя 10-15 сек. программа автоматически подсветит все области различными цветами. Например, область текста выделяется синим цветом. Кстати, подсветила она все области правильно и довольно быстро. Честно говоря, не ожидал от нее такой быстрой и правильной реакции…

4) Для тех, кто не доверяет автоматической разметке, можно воспользоваться и ручной. Для этого есть панелька инструментов (см. картинку ниже), благодаря которой можно выделить: текст, таблицу, картинку. Передвинуть, увеличить/уменьшить начальное изображение, подрезать края. В общем, неплохой набор.

5) После того, как все области были размечены, можно приступить к распознаванию . Для этого просто щелкните по одноименной кнопке, как на картинке ниже.

6) Буквально через 10-20 сек. перед вами откроется документ в Microsoft Word с распознанным текстом. Что интересно, в тексте для этого примера, ошибки, конечно были, но их крайне не много! Тем более, учитывая в каком невзрачном качестве был исходный материал - картинка.

По скорости и качеству вполне сравнимо с FineReader!

3. Пакетное распознавание текста

Эта функция программы может пригодится, когда вам нужно распознать не одну картинку, а сразу несколько. Ярлык для запуска пакетного распознавания, обычно, спрятан в меню «пуск «.

1) После открытия программы, вам нужно создать новый пакет, либо открыть ранее сохраненный. В нашем примере - создадим новый.

2) В следующем шаге даем ему название, желательно такое, чтобы и через полгода вспомнить что в нем сохранено.

4) Теперь нужно указать папку, в которой расположены файлы для распознавания. Кстати, что интересно, программа сама найдет все картинки и другие графические файлы, которые она сможет распознать и добавить их в проект. Вам же останется удалить лишние.

5) Следующий шаг не важен- выбираете что делать с исходными файлами, после распознавания. Рекомендую выбрать галочку «ничего не делать».

6) Осталось лишь выбрать формат, в котором будет сохранен распознанный документ. Есть несколько вариантов:

- rtf - файл из документа word, открывается всеми популярными офисами (в том числе и бесплатными, );

- txt - текстовый формат, в нем можно сохранить только текст, картинки и таблицы нельзя;

- htm - гипертекстовая страничка, удобно, если вы сканируете и распознаете файлы для сайта. Его и выберем в нашем примере.

С другой стороны, есть у нее и минусы.

Во-первых, слишком мало инструментов для редактирования и проверки получившегося результата. Во-вторых, когда приходится распознавать много картинок - то в FineReader удобнее сразу видеть в колонке справа всё, что добавлено в проект: быстро удалять лишнее, вносить правки пр. И третье, на документах совсем уж плохого качества, CuneiForm проигрывает в качестве распознавания: приходится документ доводить до ума - править шибки, проставлять знаки препинания, кавычки и т.д.

На этом все. А вы знаете какую-нибудь еще достойную бесплатную программу для распознавания текста?

Модуль поиска не установлен.

Система распознавания текстов CuneiForm 2000

Ольга Крылова, [email protected]

Покупкой сканера, как правило, преследуют одну из целей. Когда требуется перевод печатных изображений и фотографий в электронный вид, либо для переноса текстовой информации с бумажного оригинала в формат компьютерного редактора. Выбор и тестирование всевозможных программ, обеспечивающих интерфейс, обычно занимает уйму времени. Но с облегчением можно вздохнуть, узнав, что "продвинутых" программ, предназначенных для ввода и распознавания текста со сканера, всего две: это CuneiForm и Fine Reader.

Заполучив новый сканер, его обладатель может автоматически стать пользователем одной из этих программ, т. к. фирмы-производители давно внедряют свои продукты "в довесок" к оборудованию. Конечно же, лицензионный пакет ПО с набором последних разработок таким способом не распространяется. Купивший сканер получает бета-версию новой или устаревшую (но работающую без ограничения времени) модификацию программы.

Среди пользователей-профессионалов до сих пор не разрешен спор в пользу CuneiForm и Fine Reader. Каждый из продуктов в той или иной версии всегда опережает своего конкурента в каком-либо функциональном новшестве. Тем не менее, обобщенные оценки обеих программ практически равны. Пользователей системы Fine Reader больше, что отчасти объясняется маркетинговой политикой при ее распространении. Однако и программа распознавания текстов CuneiForm имеет немало своих сторонников, т. к. ее принципиально отличает от конкурента иная платформа, интерфейс и ряд незаменимых функций. Имея в арсенале CuneiForm 2000 и Fine Reader 5.0, пользователи часто проводят сравнение возможностей обеих программ, чтобы выбрать для себя наиболее удобную. Такая политика более оправдана, чем вера в слухи и воспеваемые дифирамбы конкретной распознавалке. Сколько компьютерщиков, столько, как говорится, и мнений!

Основной критерий, вызывающий восхищение пользователей во время сканирования, это соотношение скорость/качество. При масштабной работе с текстом, не обремененным таблицами и рисунками, ставка делается на возможность при помощи программы распознавания сэкономить массу времени. Максимально высокая скорость (а высоких показателей на сегодняшний день добивается любая современная система) достигается, когда рабочий документ идеального качества, с крупным ярким шрифтом. Не секрет, что этот фактор напрямую влияет и на качество распознанного текста. Если бумажная версия рабочего документа пропечатана плохо, то время на распознавание, естественно, увеличивается. Программа CuneiForm 2000, стремясь к идеальной формуле скорость/качество, подключает целую совокупность алгоритмов. Их взаимосвязанная работа позволяет системе после оценки отсканированного объекта подключить именно тот механизм, который быстрее справится с поставленной задачей. Тем самым интеллектуальная программа экономит время пользователя! Затратив несколько секунд на принятие и реализацию решения, система страхует от вторичного сканирования того же документа, изменения настроек и возможного ручного редактирования нераспознанных символов.

Еще один важный момент, который обеспечит максимальную скорость работы программы распознавания. Приобретая сканер и задаваясь целью максимально использовать его, не стоит скупиться на upgrade самого компьютера. Это очевидно: современные разработки программного обеспечения стремятся к максимальной эффективности (в нашем случае скорость/качество), требуя дополнительных аппаратных ресурсов. Переходя от версии к версии любимой программы распознавания текстов, нужно заботиться об увеличении памяти и мощности процессора вашего компьютера. При таких условиях будет легче прочувствовать новшества, введенные разработчиками, и полностью насладиться всеми функциями программы.

Однажды оценив легкость и полезность системы распознавания, уже невозможно от нее отказаться. Упразднив ручной набор, пользователь пытается доверить процессу распознавания со сканера все более и более сложные тексты. Обычное желание - сэкономить усилия при создании и верстке таблиц, а также поставить на поток перевод в цифровой формат многочисленных рисунков и формул. Если "в молодом возрасте" программа распознавания эту проблему решала с трудом, долго "скрипя" над поставленной задачей и иногда совершая ошибки, то сегодня CuneiForm 2000 выручает своих сторонников на все 100%. Иногда при вводе сложных текстов возникают некоторые нюансы, требующие доработки. Но не понравившийся результат всегда можно исправить, изменив методику: например, перейти на ручное выделение блоков, что часто прибавляет удобства при формировании таблиц. Очень быстро разрешит сомнения развернутая справочная система: воспользовавшись ею, можно за 2-3 итерации поставить на поток сканирование и распознавание идентичных по структуре страниц. Последнюю версию программы распознавания текстов CuneiForm 2000 сайт разработчика (http://www.cuneiform.ru) распространяет бесплатно. Программа работоспособна в течение 30 дней или 100 запусков, т.к. для дальнейшего использования требуется оплата программного продукта и регистрация. При обращении же к незарегистрированной копии на экране появляется запрос на ввод пароля и диалог-предупреждение о том, что программа не зарегистрирована. Однако времени, отведенного на эксплуатацию пробной версии системы CuneiForm 2000, вполне достаточно, чтобы оценить ее достоинства и недостатки. При этом функциональные возможности такой копии CuneiForm ничем не отличаются от ее зарегистрированного оригинала. В техническом руководстве к программе обозначено несколько отличий между двумя версиями: CuneiForm 2000 Professional и CuneiForm 2000 Master. Оценив эту разницу, можно уменьшить (увеличить) затраты на приобретение той или иной версии. Стоимость CuneiForm 2000 Professional составляет $129 (upgrade $39), Professional CuneiForm 2000 Master - $249 (upgrade $75). Обе модификации позволяют работать с 15 языками, распознавать таблицы, рисунки и, проверяя орфографию, сохранять обработанный текст в различных форматах, т. е. самые необходимые функции, не говоря уже о стабильном качестве и скорости распознавания. Пакет CuneiForm 2000 Master, в отличие от своего урезанного по возможностям собрата CuneiForm 2000 Professional, предоставляет еще и работу с пакетным распознаванием. Не менее полезная возможность - сканирование с удаленного сканера, что удобно при работе нескольких пользователей в сети.

Впервые приступая к сканированию и распознаванию текстов, полезно отметить для себя следующие моменты. При запущенной программе CuneiForm 2000 и подключенном сканере вся работа делится на 4 этапа. Каждый этап зафиксирован и запускается кнопкой в главной информационной панели системы распознавания (см. рисунок 1).

Кнопка "Получить изображение" отвечает за процесс сканирования, и при ее нажатии система вызывает управляющую сканером программу. Внешний вид программы зависит от модели сканера и входит в комплект поставки аппарата. На всякий случай отмечу, что к этому моменту документ уже должен находиться в сканирующем устройстве. Процесс считывания требует от пользователя ручного управления как минимум двумя функциями: предварительное сканирование и непосредственно сканирование. В промежутке можно настраивать параметры цветности, контрастности, разрешения, если требуется - поворот страницы и т.п. Как правило, этап сканирования самый длительный, его завершение фиксирует возврат в меню системы CuneiForm с появлением на экране отсканированного изображения.

При помощи кнопки "Разметка" главной панели вызывается этап разметки страницы. Целесообразно установить по умолчанию автоматический режим (что отмечается треугольной стрелкой в углу кнопки). Автоматическая разметка изображения выполняется обязательно (в противном случае пользователь переходит к ручной). При ее завершении происходит прямой переход к третьему этапу.

Для распознавания текста нужно нажать на кнопку "Распознавание" в главной панели инструментов (стрелка в углу, как принято в программе, означает автоматический режим и переход после выполнения к следующему этапу). Распознанный текст загружается в окно текстового редактора системы CuneiForm, в котором сомнительные слова и символы выделены цветом.

Дальнейшие действия следующие: редактирование обработанного текста в редакторе системы и вызов этапа сохранения кнопкой "Запись в файл". Упрощенный процесс сканирования и распознавания документа на этом завершен. Для экономии времени можно пренебречь проверкой, скопировав распознанный текст из редактора системы CuneiForm через буфер обмена в блокнот, Word или любой другой.

Итак, упрощенный процесс сканирования освоен и уже произведены некоторые первоначальные оценки. Теперь пользователю предстоит расширить диапазон освоения возможностей программы.

Чтобы получить навыки работы со сложным объектом, стоит взять при изучении системы что-нибудь сложное для распознавания: например, книгу с таблицами и рисунками. При этом текст будет располагаться двумя колонками (вы сканируете разворот двух страниц одновременно). Здесь, а также в других "многоколончатых" случаях не запрещайте системе CuneiForm 2000 "видеть" такое расположение текста. В противном случае можно потерять все форматирование. К примеру, установив флажок при задании опций пакетного распознавания (см. рисунок 2), - в целом пакете.

На этапе сканирования, в первую очередь предлагаю зафиксировать параметры системы, которые будут использоваться по умолчанию. Задать правильно все настройки распознавания поможет справочная система и "Мастер распознавания", в котором настраиваются следующие параметры: цветность, формат границ, разрешение, яркость, контраст и порог, язык распознавания, вид нераспознанного символа, сохранение, параметры разметки, наличие таблиц и картинок, словарный контроль. Режимы: колонка, факс, матричный принтер. Задав эти настройки в меню "Параметры" по умолчанию, в последующем не придется выбирать одни и те же опции при работе с данной книгой.

В окне изображения система позволяет управлять отсканированным объектом: просматривать в различных масштабах, отображать его фрагменты в окне увеличения, поворачивать, инвертировать. Отсканированный объект можно сохранить в файле. (А впоследствии - обработать при помощи пакетного распознавания.) Как и любой графический файл, изображение несложно распечатать.

Следующий этап тестирования возможностей системы - это настройка опций разметки. Часто бывает полезной замена автоматической разметки на ручную. Это пригодится в нашем случае с книгой, т.к. в тексте могут присутствовать объекты, которые не нужно включать в распознанный текст: колонтитулы, номера страниц, пометки на полях. Система CuneiForm 2000 игнорирует все находящееся за пределами размеченной области. Во-вторых, операция ручной разметки спасет наши таблицы: такие манипуляции сэкономят время на последующую верстку! Простой пример: даже такой интеллектуальной системе, как CuneiForm 2000, очень непросто "увидеть" в документе таблицу, которая не ограничена сеткой. Визуально такой объект выглядит как многоколончатый текст, и программа автоматически выделяет его так же.

Область распознавания выделяется курсором мыши, принявшим вид креста. Часть изображения, оставленная за пределами области распознавания, будет затенена, а область распознавания - нет. Средства ручной разметки задают размеры блоков текста и иллюстраций, формируют блоки таблиц. Блоки можно перемещать, изменять размеры, добавлять, удалять, упорядочивать, преобразовывать в блоки другого типа (в т. ч. многоугольные) и пр.

После автоматической разметки сложного текста происходит разбиение на несколько мелких блоков. Меню "Правка" позволяет объединять их и нумеровать, организуя порядок, в котором содержимое блоков переносится в текст. После выбора пункта "Пронумеровать блоки" в углу каждого блока высвечивается его номер. Последовательные щелчки мышью изменят номер блока, начав с первого и далее по порядку.

Все манипуляции в отношении блоков текста, таблиц и иллюстраций совершаются с помощью меню "Правка" и "Изображение". Причем любой блок разметки можно преобразовать в блок иллюстрации, выбрав опцию "Определить блок как рисунок".

После запуска распознавания готовый текст разместится в текстовом редакторе. В нем предусмотрена возможность последовательного просмотра сомнительных слов при помощи меню "Правка" или комбинаций клавиш Ctrl+F8, Ctrl+F7. Редактор системы CuneiForm 2000 позволяет управлять шрифтами, меняя их начертание, размер и пр. Есть также упрощенные возможности работы с абзацами.

Прежде чем запустить функцию распознавания, в меню "Параметры" кнопки "Распознавания" необходимо задать язык распознаваемого текста, допустим, для рассматриваемого примера сканирования страниц книги подойдет выбор "Русско-Английский". Эта операция важна для правильной работы функций словарного контроля, а также для исключения знаков переноса (однако в настройках можно указать и сохранение исходных переносов). Режим "Словарный контроль" включается в том же меню или в опциях "Общие параметры". Система CuneiForm 2000 имеет богатый словарь, но при отсутствии в нем какого-то слова знак переноса может оказаться в распознанном тексте. Эти слова будут отмечены цветом как сомнительные. Нераспознанные символы по умолчанию в программе заменяются знаком тильды - "~".

Чтобы облегчить работу программе, лучше заранее установить режим распознавания для документов, напечатанных на матричных принтерах или пришедших по факсу - они существенно отличаются от обычных текстов.

Распознанный текст можно записать в файл, а можно экспортировать в текстовый процессор Microsoft Word, электронные таблицы Microsoft Excel или в электронный архив "Евфрат". Для упрощения работы полезно включить автоматический вызов экспорта в нужную программу. Эти настройки задаются в диалоговом окне кнопки "Сохранение".

Запись распознанного текста в файл производится по обычной для текстового редактора схеме: выбор каталога, формата создаваемого файла, кодировки символов кириллицы. Чтобы в файле каждый абзац был разбит на отдельные строки, следует установить флажок "Сохранять концы строк внутри параграфа". Имя файла указывается без расширения. Сохраняя сложно отформатированный документ в текстовом формате, нужно при разметке правильно упорядочить блоки текста. В противном случае фрагменты текста из разных блоков могут быть записаны в файл с нарушением порядка.

Отсканировав несколько страниц книги с использованием вышеперечисленных советов, пользователь заметит, что процесс работы с системой CuneiForm 2000 принял поточный характер. В случае, когда те же самые итерации с одинаковыми настройками программы повторяются от страницы к странице, удобно затрачиваемые усилия переложить на плечи пакетного распознавания. Эта подпрограмма отлично экономит время при условии, что объединенные в пакет страницы не требуют ручного вмешательства. Суть метода заключается в том, что прошедшие 1 этап ("Сканирование") страницы (одна или несколько десятков) объединяются в каталог и откладываются на время. Пользователь сам выбирает момент для запуска следующих этапов для данного пакета (каталога). Объединенные в пакет файлы все, как один, получают единовременные настройки разметки, распознавания и сохранения. Эти настройки и есть последний шаг, предпринимаемый человеком в пакетном распознавании. Следующее его вмешательство - просмотр результатов.

Высвободившееся время лучше всего направить на работу с "непослушными страницами". Рациональнее не включать их в пакет и обработать "старым", уже изученным способом, выделяя вручную блоки, редактируя таблицы, рисунки и проблемные участки.

Пакетное распознавание в системе CuneiForm функционирует как самостоятельный модуль программы и запускается в отдельном окне. Чтобы стало понятнее, какими возможностями наделена эта подпрограмма, приведу формулировку из справочной системы. "Пакетом будем называть совокупность графических файлов, параметров их обработки программой пакетного распознавания, файлов с распознанным текстом и сообщений об ошибках, которые возникли при распознавании текста. Пакет может существовать только в оперативной памяти компьютера во время сеанса работы с программой пакетного распознавания, а может быть записан на диск в виде файла с расширением.CBF. В пакете хранятся только ссылки на файлы, сами же файлы хранятся на диске независимо от пакета. В пакете записаны полные пути к файлам, поэтому, скажем, перемещение пакета на другой диск или в другой каталог приведет к тому, что программа пакетного распознавания не найдет включенные в пакет файлы. В пакет можно добавить не только отдельные файлы, но и каталог, что бывает полезно, когда планируется обработка пакета в режиме ожидания. Жизненный цикл пакета начинается созданием последнего, в частности добавлением в него графических файлов. Для того чтобы распознать текст, находящийся в графических файлах, пакет следует обработать, при этом для каждого успешно обработанного графического файла создаются и включаются в пакет файлы с распознанным текстом. Поскольку эти файлы записываются непосредственно на диск и имеют стандартный формат, RTF или текстовый, необходимости сохранять или экспортировать распознанный текст нет: достаточно просто скопировать файлы с распознанным текстом в нужный каталог."

Как и при любом сотрудничестве с программой CuneiForm, управлять пакетным распознаванием очень просто. "Мастер пакетного распознавания" начинает работать после нажатия кнопки "Создание пакета" в подпрограмме. Вкратце опишу те действия, которые нужно предпринимать при работе с Мастером. Первое действие - задать имя пакету. Далее - настройки опций "Распознавание". Они идентичны уже знакомым нам со времен сканирования страниц книги параметрам. Здесь порядок таков: "Язык распознавания", "Словарный контроль", "Матричный принтер", "Факс", "Колонки", "Нераспознанный символ", "Таблицы", "Картинки", "Автоповорот" (см. рисунок 2), "Список файлов, составляющих пакет", "Параметры шрифтов" и "Тип распознанных файлов". Допустим, можно выбрать несколько "отложенных" после сканирования страниц, сохраненных в файлах формата.TIF. Мастер поинтересуется, что делать с обработанными графическими файлами (удалять, перемещать или ничего) и в каком формате сохранять распознанные тексты. После запуска распознавания окно программы будет содержать дерево пакетных файлов и индикатор процесса обработки (см. рисунок 3). При желании результаты можно записать в файл-протокол (LOG). Программа пакетного распознавания может обрабатывать несколько пакетов одновременно, а также в режиме ожидания, обработка в котором заканчивается только после вмешательства пользователя.

Резюме (краткое руководство)

1. Начинать работу с системой CuneiForm 2000 нужно с оценки качества текста и параметров сканирования, при которых достигается максимум качества/скорости. Для этого: отсканировать 1-2 страницы текста, задав параметры вручную. На основании проделанной работы задать "по умолчанию" опции сканирования (в частности, "цветность", "разрешение", "яркость"), все форматы распознавания и сохранения.

2. Позволить системе автоматическую разметку с последующим распознаванием отсканированного объекта. В случае удовлетворяющего вас результата выполнять эти этапы для идентичных страниц в режиме "Автомат". В случае возникших неточностей распознавания - перейти к ручной разметке и редактированию блоков, особое внимание уделяя таблицам и рисункам.

3. Отсортировать страницы, требующие "ручного управления". Для оставшихся выполнить этап "Сканирование", сохранить результат в графическом формате.

4. Выполнить весь объем работ порциями, используя возможности системы CuneiForm 2000. Сначала обработать страницы, требующие "ручного управления". Вторую порцию - средствами пакетного распознавания идентичные по оформлению графические файлы (см. п. 3), отсортированные в каталоги-пакеты.