Découvrez deux ressources pour faire de l’OCR depuis votre navigateur

Le 26/10/2014

Aujourd'hui le BlogDuWebdesign vous propose une sélection de deux ressources vous permettant de faire de la reconnaissance optique de caractères (OCR) en Javascript.

Qu'est-ce que l'OCR ?

La reconnaissance optique de caractères (ou optical character recognition, d'ou le OCR), est un ensemble de procédés informatique permettant de convertir un texte sous la forme d'image (issu d'un scanner par exemple) en un texte sous forme de… texte, que vous pourrez éditer dans tout logiciel comme Word (ou Vim).

Ces logiciels sont évidemment extrêmement utiles pour éviter d'avoir à transcrire de très longs textes comme par exemple d'anciens livres imprimés avant la démocratisation des ordinateurs, mais les étudiants peuvent aussi l'utiliser pour transcrire des cours manuscrits par exemple.

Enfin, pour recentrer sur le web, l'OCR est par exemple capable de décrypter un formulaire que vos visiteurs auraient imprimé et complété, pour ensuite effectuer des actions en fonction de leurs réponses.

Pour illustrer cette description, je vous propose d'aller essayer directement le procédé sur le site de la ressource Ocrad.js .

Ocrad.js

Ocrad.js est un portage du moteur Ocrad vers le Javascript (oui, je sais, vous n'auriez jamais pu le deviner simplement avec le nom de la ressource !).

Léger (pour un OCR) il a l'avantage d'effectuer sa reconnaissance assez rapidement (pour un OCR. En vrai c'est looooong). Côté inconvénient, il ne peut travailler qu'avec un alphabet latin, et surtout ne fonctionne vraiment pas très bien avec l'écriture manuscrite.

Si vous avez envie d'effectuer simplement quelques tests pour mieux comprendre la technique, ou pour monter un prototype, je vous conseille d'utiliser cette ressource-là. Pour un projet plus complet, je vous conseille de jeter un œil à la ressource suivante.

Tesseract.js

Vous connaissez peut-être Tesseract, un logiciel d'OCR développe depuis 1985, et qui a été récupéré par Google en 2006, qui le développe depuis. Contrairement à Ocrad, il est capable de reconnaître tous les caractères de l'UTF-8 et reconnaître plus de 100 langages out-of-the-box.

Tesseract.js est donc un portage de Tesseract vers le Javascript (Surprise, étonnement).
Si on devait le comparer à Ocrad, il est bien plus puissant et bien plus fiable dans sa reconnaissance, même avec du texte manuscrit ou des lettres "anciennes" et non-regulières.

Le contrecoup de cette fiabilité est évidemment un travail d'analyse plus long (comme vous pourrez vous en rendre compte avec la démo sur leur site).