OCR con Python, OpenCV y PyTesseract

El OCR no es tan preciso como algunas soluciones comerciales disponibles .

No funciona bien con imágenes afectadas por artefactos, como oclusión parcial, perspectiva distorsionada y fondo complejo.

no es capaz de reconocer la escritura a mano.

Puede encontrar galimatías e informar de esto como salida OCR.

Si un documento contiene idiomas distintos de los indicados en los argumentos-l LANG, los resultados pueden ser pobres.

No siempre es bueno para analizar el orden natural de lectura de los documentos. Por ejemplo, puede no reconocer que un documento contiene dos columnas y puede intentar unir texto entre columnas.

Las exploraciones de mala calidad pueden producir OCR de mala calidad.

No expone información sobre a qué familia de fuentes pertenece el texto.

Micro Blogs

Micro Blogs

OCR con Python, OpenCV y PyTesseract

OCR de Tesseracto :

Instalación de Tesseract

OCR con Pytesseract y OpenCV:

Preprocesamiento para Tesseract :

Getting boxes around text :

Coincidencia de plantilla de texto (detectar solo dígitos ):

de la Página de la segmentación de los modos de :

Detecta solo dígitos mediante la configuración:

Caracteres de lista blanca / Lista negra:

listas Negras de las letras :

Varios idiomas de texto :

Limitaciones de Tesseract:

Conclusión:

Leave a Reply Cancel

Archivos

Meta