Hatred's Log Place

DON'T PANIC!

Dec 3, 2009 - 1 minute read - linux

Немного про распознавание текста (OCR) в Linux

Наверное самое слабое место для Linux систем. Хотя проектов достаточно много, например gocr, tesseract или ocrad, но многие из них до сих пор не вышли из зачаточного состояния, требуют для более-менее удовлетворительной работы длительное обучение, и даже после оного достаточно отвратительно распознают текст.

Небольшой перелом в положительном направлении стало открытие исходных кодов программы распознавания текстов cuneiform, но проект развивается достаточно медленно, и пока плохо распознает табличные тексты.

Но, несмотря на это, в настоящее время - это лучшая программа для распознавания под Linux.

На данный момент существует несколько способов её использования:

  1. из командной строки, доступна из коробки
  2. программа cuneiform-qt, довольно убога на данный момент
  3. программа yagf - достаточно удобна, хотя ещё и не достаточно функциональна, может работать сразу со сканером при помощи xsane
  4. веб интерфейс - CuneWebForm, ссылки тут: * http://cunewebform.nntc.nnov.ru/ - попробовать непосредственно в работе, поддерживает закачку в виде отдельных картинок и в виде пакета в zip архиве. * http://fireforge.net/frs/download.php/434/cunewebform-0.2svn.tar.gz - ссылка на скачивание, дабы дома или в локальной сетке развернуть.

Куниформ работает и потихоньку эту свою работу делает, надеюсь будет развитие.