Распознавание текста в Linux Ubuntu с помощью CuneiForm + YAGF

Распознавание текста в ОС Linux доступно любому пользователю. Чтобы с легкостью распознать текст в операционной системе Linux есть OCR-система CuneiForm, которая служит для преобразования графических файлов в редактируемый текст. CuneiForm работает только из консоли, что существенно ограничивает круг людей, которые могут использовать данную программу.

Чтобы это исправить была разработана, на данный момент, лучшая графическая оболочка — YAGF. YAGF полностью раскрывает все возможности OCR-системы CuneiForm.

Скриншоты

Распознавание текста в Linux Ubuntu с помощью CuneiForm + YAGF

Описание

Сильные стороны CuneiForm + YAGF:

  • Комплекс программ абсолютно бесплатен.
  • Довольно неплохие результаты распознования текста.
  • Результаты распознавания текста можно сохранить в формат html или text.
  • Есть возможность автоматической проверки орфографии при установленоном пакете aspell.
  • Большое количество поддерживаемых языков.
  • Красивый и эргономичный интерфейс.
  • Работа со сканером организована посредством Sane + XSane.

Слабые стороны CuneiForm + YAGF:

  • Нельзя сохранить результаты работы в текстовом документе, формат которого поддерживает сохранение форматирования текста: doc, odt, rtf и т. д.
  • Распознование текста, в некоторых случаях, еще далеко от идеального.

Установка

  1. Скачать CuneiForm для Windows: http://www.cuneiform.ru/downloads/
    Скачать YAGF для Windows: http://symmetrica.net/cuneiform-linux/yagf-ru.html
  2. Установка CuneiForm и YAGF в Ubuntu / Kubuntu / Xubuntu:
    echo "deb http://notesalexp.org/debian/`lsb_release -cs`/ `lsb_release -cs` main contrib non-free" | sudo tee -a /etc/apt/sources.list
    wget -O - http://notesalexp.org/debian/alexp_key.asc | sudo apt-key add - && sudo apt-get update
    sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane cuneiform-linux yagf

Зарубин Иван Эксперт по Linux и Windows

Парашютист со стажем. Много читаю и слушаю подкасты. Люблю посиделки у костра, песни под гитару и приближающиеся дедлайны. Люблю путешествовать.

Вдохновлен

Похожие статьи

Комментарии (25)

  • Mitoshi
    #

    Во, отличная программа, под виндой был, помню, только ABBYY FineReader и то платный… =)

  • Tavork
    #

    А вместо этого # sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane можно ссылки дать на оффлайн deb пакеты. Буду признателен.

  • #

    >Tavork
    Все эти пакеты доступны в официальных репозиториев Ubuntu.
    Если нет возможности скачать с них, то воспользуйтесь сайтом:
    http://packages.ubuntu.com/
    Там поиск. На нем можно найти все пакеты, входящие в официальную поставку дистрибутива Ubuntu

  • Андрей
    #

    Помоему правильная строчка вот такая (либмэджик не ++1, а ++10):

    sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane

    Кстати кто-нибудь знает, где можно найти deb-пакеты cuneiform и YAGF под hardy?

  • #

    >Андрей
    Вы ошибаетесь ))) именно libmagick++1
    Про hardy к сожалению не подскажу

  • #

    Андрей не ошибается, просто они разные: libmagick++10 – squeeze, sid(karmic) ++2, для убунту 8.10-9.04 ++1 – тут уж если я не ошибаюсь :-)

  • Randomize
    #

    При попытке распознать пишет:
    Ответ системы:cuneiform: error while loading shared libraries: libGraphicsMagick++.so.1: cannot open shared object file: No such file or directory
    при:
    sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane
    Не удалось найти пакет libmagick++10
    при:
    libmagick++1 не найдены кандидаты на установку
    Я поставил libMagick++2 и libMagick++-dev
    Вот только не лечит
    Я мало понимаю что делаю может кто подскажет?

  • #

    Скорее всего Вы не подключили доп. репозитории.
    Зайдите в АДМИНИСТРИРОВАНИЕ/ИСТОЧНИКИ ПРИЛОЖЕНИЙ там поставте везде галки и обновите списки пакетов. Потом попробуйте по новому установить. Если у Вас ОС Ubuntu, то sudo apt-get install libmagick++1 aspell aspell-ru

  • Randomize
    #

    Да у меня Ubuntu 9.10 и дело видно в репозиториях так как при обновлении их пишет
    http://ppa.launchpad.net jaunty Release:
    Следующие подписи не могут быть проверены, так как недоступен открытый ключ:NO_PUBKEY 7D2C7A23BF810CD5 Ошибка: http://ppa.launchpad.net intrepid Release:Следующие подписи не могут быть проверены, так как недоступен открытый ключ: NO_PUBKEY FE8956A73C5EE1C9Не удалось
    получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/main/binary-i386/Packages.gz
    Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD
    Не удалось получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/restricted/binary-i386/Packages.gz Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD Некоторые индексные файлы не скачались, они были проигнорированы или вместо них были использованы старые версии
    А на сайте http://packages.ubuntu.com эта библиотека какраз в репах Jaunty я от туда ручками скачал 3 файла так как libmagick++1 требует libmagickcore1 тот в свою очередь libmagickwand1 а этот снова требует libmagickcore1 и как поставить теперь я их незнаю
    несмотря что deb-файлы – ведь получается что зависимости не удовлетворены.
    Может есть способ добыть ключи от неработающих репозиторий?

  • #

    Ключ можно найти вот так:
    http://itshaman.onmypc.net/articles/26/kak-naiti-klyuch-repozitoriya-v-ubuntu

  • Randomize
    #

    Спасибо за ссылку, ключи найдены и список обновлен теперь на:
    sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane
    Пишет:
    Пакет libmagick++1 недоступен, но упомянут в списке зависимостей другого пакета. Это может означать, что пакет отсутствует, устарел, или доступен из источников, не упомянутых в sources.list
    Может ссылку создать с именем libGraphicsMagick++.so.1 на какой нить файл из пакета libMagick++2 только вот на какой и где создать?
    ЗЫ
    прошу прощения за флуд ну раз уж тема поднята….

  • Randomize
    #

    Проблему решил следующим образом
    В папке /usr/lib были найдены вот такие файлы:
    libGraphicsMagick++.so.3
    libGraphicsMagick.so.3
    Там же создал их копии и переименовал те в:
    libGraphicsMagick++.so.1
    libGraphicsMagick.so.1
    Все заработало вроде как без ошибок…

  • #

    Если что, пакет libmagick++1 тянется с оф. репа Ubuntu
    http://archive.ubuntu.com jaunty-updates/main

  • TALmud
    #

    Ребята я чайник) так что не судите строго. Подскажите как установить http://www.cuneiform.ru/downloads/(cuneiform) читал на форуме , но не нашел ( может проглядел, незнаю. ubuntu 9.04

  • Mut@NT
    #

    В статье же вроде написано.
    Качайте DEB-пакет cuneiform от сюда http://www.mediafire.com/alexp
    или с приведенной Вами ссылки, но там собирать руками придется

  • TALmud
    #

    Все разобрался)) Спасибо! Извините за глупость плохо посмотрел)))

  • #

    у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform” Что я опять не так сделал?

  • #

    Meison: у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform”

    Можете полный вывод команды.

    p.s. Можно попробовать установить с параметром -f

  • Alexey
    #

    Randomize: Проблему решил следующим образом
    В папке /usr/lib были найдены вот такие файлы:
    libGraphicsMagick++.so.3
    libGraphicsMagick.so.3
    Там же создал их копии и переименовал те в:
    libGraphicsMagick++.so.1
    libGraphicsMagick.so.1
    Все заработало вроде как без ошибок…

    Переименовал.
    А вот с таким результатом что делать :
    sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane

  • Draco
    #

    как можно распознать PDF не подскажете?

  • #

    Draco: как можно распознать PDF не подскажете?

    Сам это никогда не делал, но вроде есть конверторы в текст. Или копировать можно текст.

  • мммм
    #

    а можно просто указать в менеджере загрузки ubuntu
    прогу --CuneiForm.и все загрузится.

  • Mut@NT
    #

    мммм: а можно просто указать в менеджере загрузки ubuntu прогу --CuneiForm.и все загрузится.

    Да Вы правы, но в оф. репозитории лежит не совсем последняя версия CuneiForm. Все же целесообразнее использовать последнюю доступную версию OCR-системы

  • N2
    #

    Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.

  • Mut@NT
    #

    N2: Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.

    Это скорее всего значит, что Вы скачали DEB пакет не для той архитектуры которую используете.
    Наберите в консоли:
    uname -a
    В выводе этой команды посмотрите упоминания о архитектуре: i386, i686, amd64 и так далее
    Если команда показала у Вас 2 первых значения, то у вас установлена 32-разрядная ОС и нужно качать пакеты где есть i386. amd64 – это 64-разряда и пакет должен быть соответственный.