Articles

OCR met Python, OpenCV en PyTesseract

by admin mei 3, 2021

Optical Character Recognition (OCR) is de conversie van afbeeldingen van getypt, geschreven of gedrukte tekst in de machine-gecodeerde tekst, of van een gescand document, een foto van een document, een foto van een scène (billboards in een landschap foto) of van een tekst bovenop een afbeelding (de ondertiteling van een tv-uitzending).

OCR bestaat over het algemeen uit subprocessen die zo nauwkeurig mogelijk moeten worden uitgevoerd.

Pre-processing
Sms detectie
Tekst herkennen
Post-processing

De sub-processen kunnen uiteraard variëren afhankelijk van de use-case, maar deze zijn over het algemeen de stappen die nodig zijn voor het uitvoeren van optische tekenherkenning.

Tesseract OCR :

Tesseract is een open source text recognition (OCR) Engine, beschikbaar onder de Apache 2.0 licentie. Het kan direct worden gebruikt, of (voor programmeurs) met behulp van een API om afgedrukte tekst uit afbeeldingen te halen. Het ondersteunt een breed scala aan talen. Tesseract heeft geen ingebouwde GUI, maar er zijn er een aantal beschikbaar op de 3rdParty pagina. Tesseract is compatibel met vele programmeertalen en frameworks via wrappers die hier te vinden zijn. Het kan met de bestaande lay-outanalyse worden gebruikt om tekst binnen een groot document te herkennen, of het kan in combinatie met een externe tekstdetector worden gebruikt om tekst uit een afbeelding van een enkele tekstregel te herkennen.