Допоможіть розробці сайту, ділитися статтею з друзями!

Ця стаття буде доповненням до попередньої (https://pcpro100.info/skanirovanie-teksta/), і більш детально розкриє суть безпосереднього розпізнавання тексту.

Почнемо з самої суті, яку багато користувачів не до кінця розуміють.

Після сканування книги, газети, журналу тощо. Ви отримуєте набір картинок (тобто графічні файли, а не текстові), які потрібно розпізнати в спеціальній програмі (одна з кращих для цього - ABBYY FineReader). Розпізнавання - це і є, процес отримання тексту з графіки та саме цей процес ми і розпишемо більш детально.

У своєму прикладі зроблю скріншот цього сайту і спробую отримати з нього текст.

1) Відкриття файлу

Відкриваємо картинку (і), які плануємо розпізнати.

До речі, тут потрібно відзначити, що відкрити можна не тільки формати картинок, але і, наприклад, файли DJVU і PDF. Це дозволить швидко розпізнати цілу книгу, які по мережі, зазвичай, поширюються саме в цих форматах.

2) Редагування

Відразу погоджуватися з авто-розпізнаванням великого сенсу немає. Якщо, звичайно, у вас книга в якій тільки текст, немає картинок і табличок, плюс відсканована у відмінній якості, то можете. В інших випадках, краще все області задати вручну.

Зазвичай спочатку потрібно видалити зі сторінки непотрібні області. Для цього натисніть на панелі кнопку редагувати.

Потім потрібно залишити тільки ту область, з якої ви хочете довше працювати. Для цього є інструмент обрізки непотрібних кордонів. Справа в колонці виберіть режим обрізати.

Далі виділіть область, яку хочете залишити. На зображенні знизу вона виділена червоним.

До речі, якщо у вас відкрито декілька картинок, то обрізку можна застосувати до всіх зображень відразу! Зручно, щоб не різати кожну окремо. Зверніть увагу, внизу цієї панельки є ще один чудовий інструмент - ластик. За допомогою нього з картинки можна стерти непотрібні розлучення, номери сторінок, цяточки, непотрібні спец-символи і окремі ділянки.

Після того, як ви натиснете обрізати краю, вихідна ваша картинка повинна змінитися: залишиться тільки робоча область.

Далі можете виходити з редактора зображень.

3) Виділення областей

На панелі, над відкритою картинкою, є невеликі прямокутники, які задають області сканування. Їх кілька, розглянемо коротко найпоширеніші.

Картинка - цю область програма не розпізнавати, вона просто скопіює заданий прямокутник і вставить його в розпізнаний документ.

Текст - головна область, на якій зосередитися програма і спробує з картинки отримати текст. Цю область ми і виділимо в нашому прикладі.

Після виділення, область зафарбовується в світло-зелений колір. Далі можна переходити до наступного кроку.

4) Розпізнавання тексту

Після того, як всі області задані, клацайте в меню команду розпізнати. На щастя, в цьому кроці більше нічого робити не потрібно.

Час розпізнавання залежить від кількості сторінок в вашому документі і потужності комп'ютера.

В середньому на одну повну сторінку, відскановану в хорошій якості йде 10-20 сек. на середньому по потужності ПК (за сьогоднішніми мірками).

5) Перевірка помилок

Яким би не було початкове якість картинок, зазвичай завжди після розпізнавання залишаються помилки. Все таки поки жодна програма не здатна повністю виключити роботу людини.

Натискайте на опцію перевірки і ABBYY FineReader почне виводити вам по черзі ті місця в документі, де у нього виникли запинки. Ваше завдання, порівнявши оригінал картинки (до речі, це місце він вам покаже в укрупненому варіанті) з варіантом розпізнання - відповісти ствердно, або виправити і затвердити. Далі програма перейде до наступного складного місця і так далі, поки не буде перевірений весь документ.

Взагалі, процес цей може бути довгим і нудним …

6) Збереження

ABBYY FineReader пропонує кілька варіантів збереження вашої роботи. Самий часто-який використовується - це «точна копія». Тобто весь документ, текст в ньому, буде так само відформатований, як і в ісходніке.Удобний варіант для того, щоб передати його в Word. Так ми і вчинили в цьому прикладі.

Після цього ви побачите свій розпізнаний текст в звичному документі Word. Думаю, далі розписувати що з ним робити, великого сенсу немає …

Таким чином ми на конкретному прикладі розібрали, як можна перевести картинку в звичайний текст. Процес цей не завжди простий і швидкий.

У будь-якому випадку, все буде залежати від вихідного якість картинки, вашого досвіду і швидкості роботи комп'ютера.

Вдалої роботи!

Допоможіть розробці сайту, ділитися статтею з друзями!

Категорія: