Допоможіть розробці сайту, ділитися статтею з друзями!

Рано чи пізно, всі хто часто працює з офісними програмами, стикаються з типовою завданням - відсканувати текст з книги, журналу, газети, просто листочків, а потім перевести ці картинки в текстовий формат, наприклад, в документ Word.

Щоб це зробити необхідний сканер і спеціальна програма для розпізнавання тексту. У цій статті піде мова про безкоштовне аналогу FineReader - CuneiForm (про розпізнавання в FineReader - см. В цій статті).

Почнемо …

зміст

  • 1 1. Особливості програми CuneiForm, можливості
  • 2 2. Приклад розпізнавання тексту
  • 3 3. Пакетне розпізнавання тексту
  • 4 4. Висновки

1. Особливості програми CuneiForm, можливості

CuneiForm

Завантажити можна з сайту розробника: http://cognitiveforms.com/

Програма для розпізнавання тексту з відкритим вихідним кодом. До того ж, працює у всіх версіях Windows: XP, Vista, 7, 8, що радує. Плюс до цього додайте повний російський переклад програми!

плюси:

- розпізнавання тексту на 20 найпопулярніших мовами світу (англійська та російська само собою входить в це число);

- величезна підтримка різних друкованих шрифтів;

- перевірка за словником розпізнаного тексту;

- можливість збереження результати роботи в декількох варіантах;

- збереження структури документа;

- відмінна підтримка і розпізнавання таблиць.

мінуси:

- не підтримує занадто великі документи і файли (більше 400 dpi);

- не підтримує на пряму деякі типи сканерів (ну це не страшно, в комплект до драйверів сканера йде і спец. Програма для сканування);

- дизайн не блищить (але кому він потрібен, якщо програма повною мірою вирішить завдання).

2. Приклад розпізнавання тексту

Будемо вважати що необхідні картинки для розпізнавання ви вже отримали (відсканували там, або скачали в інтернеті книгу в форматі pdf / djvu і дістали з них потрібні картинки. Як це зробити - див. В цій статті).

1) Відкриваємо необхідну картинку в програмі CuineForm (файл / відкрити або «Cntrl + O«).

2) Щоб приступити до розпізнавання - потрібно спочатку виділити різні області: тексту, картинок, таблиць та ін. У програмі Cuneiform це можна зробити не тільки в ручну, а й автоматично! Для цього натисніть на кнопку «розмітка» у верхній панелі вікна.

3) Через 10-15 сек. програма автоматично підсвітить всі області різними кольорами. Наприклад, область тексту виділяється синім кольором. До речі, підсвітила вона все області правильно і досить швидко. Чесно кажучи, не очікував від неї такої швидкої і правильної реакції …

4) Для тих, хто не довіряє автоматичної розмітки, можна скористатися і ручний. Для цього є панелька інструментів (див. Нижче), завдяки якій можна виділити: текст, таблицю, картинку. Пересунути, збільшити / зменшити початкове зображення, підрізати краю. Загалом, непоганий набір.

5) Після того, як всі області були розмічені, можна приступити до розпізнавання. Для цього просто клацніть по однойменній кнопці, як на картинці нижче.

6) Буквально через 10-20 сек. перед вами відкриється документ в Microsoft Word з розпізнаним текстом. Що цікаво, в тексті для цього прикладу, помилки, звичайно були, але їх вкрай небагато! Тим більше, з огляду на в якому непоказному як був вихідний матеріал - картинка.

За швидкістю і якістю цілком можна порівняти з FineReader!

3. Пакетне розпізнавання тексту

Ця функція програми може стане в нагоді, коли вам потрібно розпізнати не одну картинку, а відразу декілька. Ярлик для запуску пакетного розпізнавання, зазвичай, захований в меню «пуск«.

1) Після відкриття програми, вам потрібно створити новий пакет, або відкрити раніше збережений. У нашому прикладі - створимо новий.

2) В наступному кроці даємо йому назву, бажано таке, щоб і через півроку згадати що в ньому збережено.

3) Далі вибираєте мову документа (російсько-англійський), вказуєте, чи є у вашому відсканованому матеріалі картинки і таблиці.

4) Тепер потрібно вказати папку, в якій розташовані файли для розпізнавання. До речі, що цікаво, програма сама знайде все картинки і інші графічні файли, які вона зможе розпізнати і додати їх у проект. Вам же залишиться видалити зайві.

5) Наступний крок не важен- вибираєте що робити з вихідними файлами, після розпізнавання. Рекомендую вибрати галочку «нічого не робити».

6) Залишилося лише вибрати формат, в якому буде збережений розпізнаний документ. Є кілька варіантів:

- rtf - файл з документа word, відкривається всіма популярними офісами (в тому числі і безкоштовними, посилання на програми);

- txt - текстовий формат, в ньому можна зберегти тільки текст, картинки і таблиці не можна;

- htm - гіпертекстова сторінка, зручно, якщо ви бажаєте сканувати і розпізнаєте файли для сайту. Його і виберемо в нашому прикладі.

7) Після натискання кнопки «готове» запуститься процес обробки вашого проекту.

8) Програма працює досить таки швидко. Після розпізнання перед вами з'явиться вкладка з файлами htm. Якщо клацнути по такому файлу запуститися браузер, де ви зможете побачити результати. До речі, пакет можна зберегти для подальшої роботи з ним.

9) Як видно, результати роботи досить вражаючі. Картинку програма легко розпізнала, а під нею легко розпізнала текст. При тому що програма і безкоштовна - то взагалі супер!

4. Висновки

Якщо ви часто не займаєтеся скануванням і розпізнаванням документів, то купувати програму FineReader, напевно, не має сенсу. З більшістю завдань легко справляється CuneiForm.

З іншого боку, є у неї і мінуси.

По-перше, дуже мало інструментів для редагування і перевірки отриманого результату. По-друге, коли доводиться розпізнавати багато картинок - то в FineReader зручніше відразу бачити в колонці справа все, що додано в проект: швидко видаляти зайве, вносити правки ін. І третє, на документах зовсім вже поганої якості, CuneiForm програє в якості розпізнавання: доводиться документ доводити до розуму - правити шибки, проставляти знаки пунктуації, лапки і т.д.

На цьому все. А ви знаєте якусь ще гідну безкоштовну програму для розпізнавання тексту?

Допоможіть розробці сайту, ділитися статтею з друзями!

Категорія: