Google anuncia el inicio del proyecto OCRopus, un OCR libre de alta calidad

Seg煤n Thomas Breuel, 鈥渆l objetivo es avanzar en el estado de la t茅cnica del reconocimiento 贸ptico y tecnolog铆as relacionadas, y proveer un OCR de alta calidad adecuado para la conversi贸n de documentos, bibliotecas electr贸nicas, usuarios con dificultades de visi贸n, an谩lisis de documentos hist贸ricos y uso general鈥.

脕lvaro Mart铆nez Majado – OCRopus, nombre que recibe el proyecto, fue anunciado el 9 de abril en Google Code, blog oficial de Google.

Lo dirige Thomas Breuel, profesor de Ingenier铆a Inform谩tica en la Technical University of Kaiserslautern (Alemania) y m谩ximo responsable grupo de investigaci贸n Image Understanding and Pattern Recognition que depende del German Research Center for Artificial Intelligence. Cuenta con una amplia experiencia en el campo y de su curr铆culum destaca el trabajo como investigador realizado centros de prestigio como el Xerox PARC o el IBM Almaden Research Center.

Su desarrollo, que durar谩 al menos tres a帽os, se basar谩 en parte en el OCR Tesseract desarrollado por HP y que Google liber贸 hace unos meses, otro proyecto de Google de modelizaci贸n del lenguaje y porciones de software de reconocimiento de escritura.

El equipo de desarrollo pretende que este OCR pueda trabajar con textos escritos en el mayor n煤mero de idiomas posible. El hecho de que OCRopus genere archivos HTML es una ventaja en este sentido puesto que existe la posibilidad al menos te贸rica de reproducir muchos idiomas de forma est谩ndar. Adem谩s ser谩 capaz de reconocer SPAM basado en im谩genes e incluso de romper algunos CAPTCHAs, aunque esto 煤ltimo no es una caracter铆stica en la que se est茅 centrando el trabajo.

M谩s informaci贸n