Всё о распознавании текста - Как это работает - Каталог статей - NoProblem
Вторник, 06.12.2016, 15:05

Без проблем

Меню сайта
Реклама
Категории раздела
Сетевое оборудование [2]
Ставим сетку и прочие хитрости
Железные проблемы [7]
Раздел посвящен проблемам, связанным с техническими средствами информатизации, компьютерным оборудованием и устройствами.
Статьи для чайников [9]
Эта рубрика создана для тех, кто еще только начал свое знакомство с компьютером. Для тех, кому простейшие вещи кажутся сложными :-)
Борьба с вирусами [3]
Статьи и заметки, призванные помочь избавиться от вирусов на вашем компьютере.
Как это работает [4]
Это интересно [2]
Soft статьи [5]
Установка, настройка, решение проблем с операционными системами, а также статьи на темы программного обеспечения компьютера.
Интернет [1]
Наш опрос
Какой компьютер вы используете дома?
Всего ответов: 171
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0
Форма входа
Поиск
Друзья сайта
  • Официальный блог
  • Рассылка 'Компьютер без проблем'
  • Главная » Статьи » Как это работает

    Всё о распознавании текста

    Всё о распознавании текста



    С листа – прямо в компьютер, минуя утомительную процедуру набора текста... ComputerBild расскажет, как быстро превратить бумажный документ в электронный.

    Переписывание телефонных номеров из записной книжки, заучивание иностранных слов... В списке этих и прочих рутинных занятий ведущее место занимает набор текста на ПК. К счастью, существует компьютер, который способен выполнять эту скучную задачу безо всякого недовольства и к тому же быстрее человека. Все, что требуется от пользователя, – поместить страницу в сканер или многофункциональное устройство и нажать на кнопку Scan. Правда, для получения полноценного текстового документа одного сканера будет недостаточно. Ведь он сохраняет оцифрованную страницу в виде изображения, независимо от того, сколько текстовых и графических блоков она содержит. Чтобы получить возможность редактировать содержимое отсканированной страницы в других программах, например в Microsoft Word, изображение необходимо преобразовать в текст. Данная процедура называется Optical Character Recognition (OCR) – оптическое распознавание текста. О программах распознавания текста, а также обо всех тонкостях этого процесса мы расскажем далее.

    Как происходит распознавание текста на ПК

    Процесс оцифровки и оптического распознавания текста включает в себя пять этапов.

    Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

    Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

    Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифи­цировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру. Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

    Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д. Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

    Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

    Как выполняется распознавание символов

    Для этого используется несколько различных технологий.

    Метод сопоставления признаков. Программа распознавания текста «знает», что каждому символу присущи те или иные признаки; к примеру, буква «А» состоит из двух наклонных линий, соединяющихся вверху, и горизонтальной линии в центре. Эти признаки остаются неизменными, даже если начертание шрифта меняется на полужирное или наклонное. При выборе из нескольких вариантов предпочтение отдается символам с самой высокой степенью совпадения признаков.

    Метод сопоставления с образцом предусматривает сравнение каждого отдельного символа с шаблоном, хранящимся в программе. Для этого предусмотрены большие базы данных с различными шрифтами. Если найденный символ совпадает с шаблоном в базе, то он считается распознанным. Описание выглядит просто, но на практике этот метод оборачивается большими временными затратами и отличается невысокой эффективностью. Причина: каждый символ должен на 100% соответствовать шаблону, иначе он не будет понят. Шрифты в распознаваемом документе и шаблоне для этого должны быть абсолютно идентичными, с учетом всех видов форматирования.

    Отсечение цвета. Документы с цветными рисунками или диаграммами можно отсканировать, но OCR-приложение будет работать только с изображениями, запи­санными в градациях серого. Это практично в том смысле, что цвет распознаваемого текста будет проигнорирован, так что файл займет меньше места.

    Что затрудняет распознавание текста

    Распознавание текста даже для мощных компьютеров – задача не из простых. Поэтому раньше существовали специальные типы шрифтов для распознавания, символы которых машина понимала лучше.

    Неправильная ориентация страницы. Необычно оформленный текст, расположенный на странице, например по диагонали, создает программе распознавания дополнительные трудности и скорее всего будет распознан с ошибками. А текст, расположенный вверх тормашками, OCR-приложение почти наверняка не сможет распознать правильно. Правда, во всех современных приложениях существуют инструменты, позволяющие автоматически повернуть страницу.

    Многостраничные документы – серьезное испытание для OCR-приложений, поскольку их методы распознавания эффективно работают только в рамках отдельной страницы. Поэтому программы разбивают многостраничные документы на отдель­ные страницы и поочередно выполняют распознавание каждой из них.

    Шрифт. Эффективнее всего OCR-системы справляются с такими легко читаемыми шрифтами, как Times New Roman или Courier. А вот с мелкими или декоративными шрифтами у них с большей долей вероятности возникнут проблемы, равно как и с математическими или химиче­скими символами (в последнем случае необходимо явно указать программе, что ее задача – распознать формулы).

    Профессиональные термины и слова на иностранном языке. Большинство OCR-приложений содержит мультиязычные и тематические словари и легко справляется с распознаванием слов из других языков и терминов. Однако узкоспециальные слова и выражения доставляют программам большие трудности – например, словосочетание «дезоксирибонуклеиновая кислота» может отсутствовать в словаре программы и будет помечено ею как нераспознанное, чтобы пользователь мог исправить его написание.

    Пятна и грязь на документе могут сбить систему распознавания с толку. Так, две крупинки тонера способны быстро превратить «е» в «ё». Поэтому OCR-приложения имеют специальные фун­кции «очистки» документа.

    Текст на рисунках. В некоторых случаях программа должна «читать» и иллюстрации, выделяя на них текстовые блоки, к примеру, чтобы распознавать надписи на диаграммах. Эта задача решается следующим образом: как только на странице обнаруживаются элементы, похожие на текст, выполняется предварительное выборочное распознавание символов. Если результат проверки окажется убедительным, то программа продолжит работать с надписями на рисунках.

    Таблицы. Для любого OCR-приложения таблица представляет собой смесь графических элементов (линий) и текста. Для того чтобы любой элемент таблицы удалось распознать, разработчики предусмотрели специальные функции. Корректно распознанные таблицы можно редактировать, к примеру в Excel или Word.

    Каким должен быть сканер

    Первым делом нужно определиться, с какими бумажными носителями вы чаще будете работать. Если это книги, журналы и рукописи (то есть сброшюрованные материалы), вам потребуется планшетный сканер. Требования OCR-программ к подобному оборудованию достаточно скромны: оптимальным решением будет недорогой (от 1500 руб.) «планшетник», позволяющий работать с оригиналами формата A4. Он удобен тем, что на его стекло можно класть не только отдельные бумажные листы, но также книги и журналы. Кстати, во многих моделях крышка не просто откидывается, а еще и приподнимается вверх – можно сканировать толстые книги. Планшетные сканеры обычно встраивают в многофункциональные устрой­ства; такие интегрированные скан-модули вполне пригодны для оцифровки текста и старых фотографий.

    Если вы чаще будете сканировать отдельные листы, ищите модель, оборудованную устройст­вом для автоматической подачи оригиналов. Оно освободит вас от необходимости менять страницы вручную, а будет затягивать их из приемного лотка автоматически, аналогично тому, как принтер затягивает листы чистой бумаги.

    Может ли OCR-программа распознавать рукописный текст

    Решив распознать письмо, написанное от руки, вы будете неприятно удивлены, ведь рукописный шрифт для многих программ является камнем преткновения. Только в том случае, если текст написан печатными буквами, им удается добиться более-менее приемлемого результата.

    Совсем по-иному распознавание рукописного текста происходит на планшетных ПК. Поставляемая в комплекте с ними программа умеет читать символы. Она понимает, каким образом пользователь пишет отдельные буквы: к примеру, букву «Е» она узнает по тому, что за вертикальной чертой следует написание трех горизонтальных линий, а цифра «1» для нее представляет собой одну вертикальную линию. Цифра «0» и буква «о» различаются лишь благодаря тому, что первый символ пишется по часовой стрелке, а второй – наоборот.

    Программы распознавания текста

    Наиболее известными программами распознавания текста являются ABBYY FineReader, CuneiForm, OmniPage и Readiris (см. табл. ниже). Они доступны в различных версиях – для домашнего и профессионального использования. На прилагаемом к этому номеру журнала DVD вы найдете 30-дневную версию программы ABBYY Fine­Reader Home Edition со скидкой на следующую покупку.

    Даже самые простые версии программ способны распознавать текст, таблицы, колонки и структуру страницы. С их помощью бумажный документ буквально за пару минут превратится в текстовый файл, доступный для редактирования. Как правило, пользователь может заранее определить, в каком файловом формате программа будет сохранять данные. Некоторые приложения способны распознавать документы на нескольких языках и позволяют вносить в перевод коррективы. Это важно, так как все программы допускают ошибки. Так, к примеру, 99,9% точности означает вероятность одной ошибки на 1000 символов, то есть от трех до четырех ошибок на страницу.

    Сравнительно новыми являются такие программы, как ABBYY Foto­Reader, способная распознавать текст на фотографиях.

    По следам госслужб

    Конец 1989 года. В округе Лихтенберг города Берлина царит суета: после объединения Германии сотрудники секретных служб в спешном порядке уничтожают архивы. Результат: информация об осведомителях, жертвах службы госбезопасности и о проведении тайных операций набита в

    16 000 мешков с мелкими бумажными обрезками. Согласно оценкам экспертов, человеку потребовалось бы несколько сотен лет, чтобы вручную сложить этот «пазл». С использованием же последних разработок эксперты Фраунхоферовского института производственного оборудования намерены выполнить данную задачу за пять лет. В настоящее время обрезки сканируются и объединяются в полноценные страницы. Эксперты Фраунхоферовского института намерены соединить 80% кусочков в автоматическом режиме, а позднее пропустить полученные страницы через программу распознавания текста, чтобы получить возможность поиска в архивах – по ключевым словам и именам. Согласно современным прогнозам, восстановленные документы будут переданы специальному ведомству, отвечающему за архивы «Штази», не позднее 2012 года.

    Категория: Как это работает | Добавил: Kirasami (20.05.2010)
    Просмотров: 7086 | Комментарии: 1 | Рейтинг: 5.0/1
    Всего комментариев: 1
    1  
    http://lmcorp.ru/ - ссылка

    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]