Articles

OCR cu Python, OpenCV și PyTesseract

by admin mai 3, 2021

recunoașterea optică a caracterelor (OCR) este conversia imaginilor textului tastat, scris de mână sau tipărit în text codificat de mașină, fie dintr-un document scanat, o fotografie a unui document, o fotografie dintr-o scenă (panouri publicitare într-o fotografie peisaj) sau dintr-un text suprapus pe o imagine (subtitrări la o emisiune de televiziune).

OCR constă în general din subprocese pentru a efectua cât mai exact posibil.

pre-procesare
detectarea textului
recunoașterea textului
post-procesare

subprocesele pot varia, desigur, în funcție de cazul de utilizare, dar acestea sunt în general pașii necesari pentru a efectua recunoașterea optică a caracterelor.

Tesseract OCR :Tesseract este un motor open source de recunoaștere a textului (OCR), disponibil sub Licența Apache 2.0. Poate fi folosit direct sau (pentru programatori) folosind un API pentru a extrage text tipărit din imagini. Aceasta susține o mare varietate de limbi. Tesseract nu are o interfață grafică încorporată, dar există mai multe disponibile de pe pagina 3rdparty. Tesseract este compatibil cu multe limbaje de programare și cadre prin ambalaje care pot fi găsite aici. Poate fi utilizat cu analiza de aspect existentă pentru a recunoaște textul într-un document mare sau poate fi utilizat împreună cu un detector de text extern pentru a recunoaște textul dintr-o imagine a unei singure linii de text.

fluxul de proces OCR din o postare pe blog

tesseract 4.00 include un nou subsistem de rețea neuronală configurat ca un recognizer de linie text. Își are originile în implementarea Lstm bazată pe Python a OCRopus, dar a fost reproiectată pentru Tesseract în c++. Sistemul de rețea neuronală din Tesseract pre-datează TensorFlow, dar este compatibil cu acesta, deoarece există un limbaj de descriere a rețelei numit Variable Graph Specification Language (Vgsl), care este disponibil și pentru TensorFlow.

pentru a recunoaște o imagine care conține un singur caracter, folosim de obicei o rețea neuronală convoluțională (CNN). Textul de lungime arbitrară este o secvență de caractere, iar astfel de probleme sunt rezolvate folosind RNNs și LSTM este o formă populară de RNN. Citiți această postare pentru a afla mai multe despre LSTM.

Tesseract dezvoltat din modelul OCRopus în Python, care a fost o furculiță a unui LSMT în C++, numit CLSTM. CLSTM este o implementare a modelului de rețea neuronală recurentă lstm în c++.

tesseract a fost un efort de curățare a codului și adăugarea unui nou model lstm. Imaginea de intrare este procesată în cutii (dreptunghi) linie cu linie alimentând modelul LSTM și dând ieșire. În imaginea de mai jos putem vizualiza cum funcționează.

instalarea tesseract

instalarea Tesseract pe Windows este ușoară cu binarele precompilate găsite aici. Nu uitați să editați variabila de mediu „path” și să adăugați calea tesseract. Pentru instalarea Linux sau Mac este instalat cu câteva comenzi.

în mod implicit, Tesseract așteaptă o pagină de text atunci când segmentează o imagine. Dacă doriți doar să OCR o regiune mică, încercați un alt mod de segmentare, folosind argumentul — psm. Există 14 moduri disponibile care pot fi găsite aici. În mod implicit, Tesseract automatizează complet segmentarea paginii, dar nu efectuează orientarea și detectarea scriptului. Pentru a specifica parametrul, tastați următoarele:

 0 Orientation and script detection (OSD) only.
1 Automatic page segmentation with OSD.
2 Automatic page segmentation, but no OSD, or OCR.
3 Fully automatic page segmentation, but no OSD. (Default)
4 Assume a single column of text of variable sizes.
5 Assume a single uniform block of vertically aligned text.
6 Assume a single uniform block of text.
7 Treat the image as a single text line.
8 Treat the image as a single word.
9 Treat the image as a single word in a circle.
10 Treat the image as a single character.
11 Sparse text. Find as much text as possible in no particular order.
12 Sparse text with OSD.
13 Raw line. Treat the image as a single text line,
bypassing hacks that are Tesseract-specific.

există, de asemenea, un argument mai important, modul motor OCR (oem). Tesseract 4 are două motoare OCR — Legacy Tesseract engine și lstm engine. Există patru moduri de funcționare alese folosind opțiunea-oem.

0. Numai motorul Legacy.
1. Numai motorul LSTM al rețelelor neuronale.
2. Legacy + motoare LSTM.
3. Implicit, pe baza a ceea ce este disponibil.

OCR cu Pytesseract și OpenCV:

Pytesseract este un înveliș pentru motorul Tesseract-OCR. De asemenea, este util ca un script de invocare stand-alone pentru tesseract, deoarece poate citi toate tipurile de imagini susținute de bibliotecile de imagini Pillow și leptonica, inclusiv jpeg, png, gif, bmp, tiff și altele. Mai multe informații despre abordarea Python citiți aici.

preprocesare pentru Tesseract:

trebuie să ne asigurăm că imaginea este pre-procesată corespunzător. pentru a asigura un anumit nivel de precizie.

aceasta include redimensionarea, binarizare, eliminarea zgomotului, deskewing, etc.

pentru a preprocesa imaginea pentru OCR, utilizați oricare dintre următoarele funcții python sau urmați documentația OpenCV.

Our input is this image :

Here’s what we get :

Getting boxes around text :

putem determina informațiile caseta de încadrare cu PyTesseradt folosind următorul cod.

scriptul de mai jos vă va oferi informații despre caseta de delimitare pentru fiecare caracter detectat de tesseract în timpul OCR.

dacă doriți casete în jurul cuvintelor în loc de caractere, funcția image_to_data va fi utilă. Puteți utiliza funcția image_to_data cu tipul de ieșire specificat cu pytesseract Output.

vom folosi imaginea de primire eșantion de mai jos ca intrare pentru a testa tesseract .

iată codul:

ieșirea este un dicționar cu următoarele taste:

folosind acest dicționar, putem obține fiecare cuvânt detectat, informațiile lor cutie de încadrare, textul în ele și scorurile de încredere pentru fiecare.

puteți trasa casetele folosind codul de mai jos :

ieșirea:

blacklisting letters:

dacă sunteți sigur că unele caractere sau expresii cu siguranță nu vor apărea în textul dvs. (OCR va returna textul greșit în locul caracterelor pe lista neagră altfel), puteți lista neagră acele caractere utilizând următoarea configurare.

ieșire :

text în mai multe limbi:

pentru a specifica limba în care aveți nevoie de ieșirea OCR, utilizați argumentul -l LANG în config unde Lang este codul de 3 litere pentru ce limbă doriți să utilizați.

puteți lucra cu mai multe limbi schimbând parametrul LANG ca atare:

NB : Limba specificată mai întâi la parametrul-l este limba principală.

și veți obține următoarea ieșire:

Micro Blogs

Micro Blogs

OCR cu Python, OpenCV și PyTesseract

instalarea tesseract

OCR cu Pytesseract și OpenCV:

preprocesare pentru Tesseract:

Getting boxes around text :

potrivire șablon de Text ( detecta numai cifre):

moduri de segmentare a paginilor :

detectați numai cifre utilizând configurația:

whitelisting/blacklisting characters:

blacklisting letters:

text în mai multe limbi:

limitări Tesseract:

concluzie:

Leave a Reply Cancel

Arhive

Meta