Распознавание текста в Linux Ubuntu с помощью CuneiForm + YAGF
Распознавание текста в ОС Linux доступно любому пользователю. Чтобы с легкостью распознать текст в операционной системе Linux есть OCR-система CuneiForm, которая служит для преобразования графических файлов в редактируемый текст. CuneiForm работает только из консоли, что существенно ограничивает круг людей, которые могут использовать данную программу.
Чтобы это исправить была разработана, на данный момент, лучшая графическая оболочка — YAGF. YAGF полностью раскрывает все возможности OCR-системы CuneiForm.
Скриншоты
Описание
Сильные стороны CuneiForm + YAGF:
- Комплекс программ абсолютно бесплатен.
- Довольно неплохие результаты распознования текста.
- Результаты распознавания текста можно сохранить в формат html или text.
- Есть возможность автоматической проверки орфографии при установленоном пакете aspell.
- Большое количество поддерживаемых языков.
- Красивый и эргономичный интерфейс.
- Работа со сканером организована посредством Sane + XSane.
Слабые стороны CuneiForm + YAGF:
- Нельзя сохранить результаты работы в текстовом документе, формат которого поддерживает сохранение форматирования текста: doc, odt, rtf и т. д.
- Распознование текста, в некоторых случаях, еще далеко от идеального.
- Язык интерфейса: русский
- Тип лицензии: BSD
- Домашняя страница: CuneiForm - http://www.cuneiform.ru/
- Полезная информация: Подключение сканера в Linux
Установка
- Скачать CuneiForm для Windows: http://www.cuneiform.ru/downloads/
Скачать YAGF для Windows: http://symmetrica.net/cuneiform-linux/yagf-ru.html
- Установка CuneiForm и YAGF в Ubuntu / Kubuntu / Xubuntu:
echo "deb http://notesalexp.org/debian/`lsb_release -cs`/ `lsb_release -cs` main contrib non-free" | sudo tee -a /etc/apt/sources.listwget -O - http://notesalexp.org/debian/alexp_key.asc | sudo apt-key add - && sudo apt-get updatesudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane cuneiform-linux yagf
Зарубин Иван
Эксперт по Linux и Windows
Парашютист со стажем. Много читаю и слушаю подкасты. Люблю посиделки у костра, песни под гитару и приближающиеся дедлайны. Люблю путешествовать.
Вдохновлен
Похожие статьи
Во, отличная программа, под виндой был, помню, только ABBYY FineReader и то платный… =)
А вместо этого # sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane можно ссылки дать на оффлайн deb пакеты. Буду признателен.
>Tavork
Все эти пакеты доступны в официальных репозиториев Ubuntu.
Если нет возможности скачать с них, то воспользуйтесь сайтом:
http://packages.ubuntu.com/
Там поиск. На нем можно найти все пакеты, входящие в официальную поставку дистрибутива Ubuntu
Помоему правильная строчка вот такая (либмэджик не ++1, а ++10):
sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane
Кстати кто-нибудь знает, где можно найти deb-пакеты cuneiform и YAGF под hardy?
>Андрей
Вы ошибаетесь ))) именно libmagick++1
Про hardy к сожалению не подскажу
Андрей не ошибается, просто они разные: libmagick++10 – squeeze, sid(karmic) ++2, для убунту 8.10-9.04 ++1 – тут уж если я не ошибаюсь :-)
При попытке распознать пишет:
Ответ системы:cuneiform: error while loading shared libraries: libGraphicsMagick++.so.1: cannot open shared object file: No such file or directory
при:
sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane
Не удалось найти пакет libmagick++10
при:
libmagick++1 не найдены кандидаты на установку
Я поставил libMagick++2 и libMagick++-dev
Вот только не лечит
Я мало понимаю что делаю может кто подскажет?
Скорее всего Вы не подключили доп. репозитории.
Зайдите в АДМИНИСТРИРОВАНИЕ/ИСТОЧНИКИ ПРИЛОЖЕНИЙ там поставте везде галки и обновите списки пакетов. Потом попробуйте по новому установить. Если у Вас ОС Ubuntu, то sudo apt-get install libmagick++1 aspell aspell-ru
Да у меня Ubuntu 9.10 и дело видно в репозиториях так как при обновлении их пишет
http://ppa.launchpad.net jaunty Release:
Следующие подписи не могут быть проверены, так как недоступен открытый ключ:NO_PUBKEY 7D2C7A23BF810CD5 Ошибка: http://ppa.launchpad.net intrepid Release:Следующие подписи не могут быть проверены, так как недоступен открытый ключ: NO_PUBKEY FE8956A73C5EE1C9Не удалось
получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/main/binary-i386/Packages.gz
Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD
Не удалось получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/restricted/binary-i386/Packages.gz Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD Некоторые индексные файлы не скачались, они были проигнорированы или вместо них были использованы старые версии
А на сайте http://packages.ubuntu.com эта библиотека какраз в репах Jaunty я от туда ручками скачал 3 файла так как libmagick++1 требует libmagickcore1 тот в свою очередь libmagickwand1 а этот снова требует libmagickcore1 и как поставить теперь я их незнаю
несмотря что deb-файлы – ведь получается что зависимости не удовлетворены.
Может есть способ добыть ключи от неработающих репозиторий?
Ключ можно найти вот так:
http://itshaman.onmypc.net/articles/26/kak-naiti-klyuch-repozitoriya-v-ubuntu
Спасибо за ссылку, ключи найдены и список обновлен теперь на:
sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane
Пишет:
Пакет libmagick++1 недоступен, но упомянут в списке зависимостей другого пакета. Это может означать, что пакет отсутствует, устарел, или доступен из источников, не упомянутых в sources.list
Может ссылку создать с именем libGraphicsMagick++.so.1 на какой нить файл из пакета libMagick++2 только вот на какой и где создать?
ЗЫ
прошу прощения за флуд ну раз уж тема поднята….
Проблему решил следующим образом
В папке /usr/lib были найдены вот такие файлы:
libGraphicsMagick++.so.3
libGraphicsMagick.so.3
Там же создал их копии и переименовал те в:
libGraphicsMagick++.so.1
libGraphicsMagick.so.1
Все заработало вроде как без ошибок…
Если что, пакет libmagick++1 тянется с оф. репа Ubuntu
http://archive.ubuntu.com jaunty-updates/main
Ребята я чайник) так что не судите строго. Подскажите как установить http://www.cuneiform.ru/downloads/(cuneiform) читал на форуме , но не нашел ( может проглядел, незнаю. ubuntu 9.04
В статье же вроде написано.
Качайте DEB-пакет cuneiform от сюда http://www.mediafire.com/alexp
или с приведенной Вами ссылки, но там собирать руками придется
Все разобрался)) Спасибо! Извините за глупость плохо посмотрел)))
у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform” Что я опять не так сделал?
Можете полный вывод команды.
p.s. Можно попробовать установить с параметром -f
Переименовал.
А вот с таким результатом что делать :
sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane
как можно распознать PDF не подскажете?
Сам это никогда не делал, но вроде есть конверторы в текст. Или копировать можно текст.
а можно просто указать в менеджере загрузки ubuntu
прогу --CuneiForm.и все загрузится.
Да Вы правы, но в оф. репозитории лежит не совсем последняя версия CuneiForm. Все же целесообразнее использовать последнюю доступную версию OCR-системы
Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.
Это скорее всего значит, что Вы скачали DEB пакет не для той архитектуры которую используете.
Наберите в консоли:
uname -a
В выводе этой команды посмотрите упоминания о архитектуре: i386, i686, amd64 и так далее
Если команда показала у Вас 2 первых значения, то у вас установлена 32-разрядная ОС и нужно качать пакеты где есть i386. amd64 – это 64-разряда и пакет должен быть соответственный.