Découvrez deux ressources pour faire de l’OCR depuis votre navigateur
Vous souhaitez mettre votre solution en avant en haut de cet article ? Contactez-nous
Aujourd'hui le BlogDuWebdesign vous propose une sélection de deux ressources vous permettant de faire de la reconnaissance optique de caractères (OCR) en Javascript.
Qu'est-ce que l'OCR ?
La reconnaissance optique de caracteres (ou optical character recognition, d'ou le OCR), est un ensemble de procedes informatique permettant de convertir un texte sous la forme d'image (issu d'un scanner par exemple) en un texte sous forme de… texte, que vous pourrez editer dans tout logiciel comme Word (ou Vim).
Ces logiciels sont évidemment extrêmement utiles pour éviter d'avoir à transcrire de très longs textes comme par exemple d'anciens livres imprimés avant la démocratisation des ordinateurs, mais les étudiants peuvent aussi l'utiliser pour transcrire des cours manuscrits par exemple.
Enfin, pour recentrer sur le web, l'OCR est par exemple capable de décrypter un formulaire que vos visiteurs auraient imprimé et complété, pour ensuite effectuer des actions en fonction de leurs réponses.
Pour illustrer cette description, je vous propose d'aller essayer directement le procédé sur le site de la ressource Ocrad.js .
Ocrad.js
Ocrad js est un portage du moteur Ocrad vers le Javascript (oui, je sais, vous n'auriez jamais pu le deviner simplement avec le nom de la ressource !).
Léger (pour un OCR) il a l'avantage d'effectuer sa reconnaissance assez rapidement (pour un OCR. En vrai c'est looooong). Côté inconvénient, il ne peut travailler qu'avec un alphabet latin, et surtout ne fonctionne vraiment pas très bien avec l'écriture manuscrite.
Si vous avez envie d'effectuer simplement quelques tests pour mieux comprendre la technique, ou pour monter un prototype, je vous conseille d'utiliser cette ressource-là. Pour un projet plus complet, je vous conseille de jeter un oeil à la ressource suivante.
Tesseract.js
Vous connaissez peut-être Tesseract, un logiciel d'OCR developpe depuis 1985, et qui a été récupéré par Google en 2006, qui le developpe depuis. Contrairement à Ocrad, il est capable de reconnaitre tous les caractères de l'UTF-8 et reconnaitre plus de 100 langages out-of-the-box.
Tesseract.js est donc un portage de Tesseract vers le Javascript (Surprise, étonnement).
Si on devait le comparer à Ocrad, il est bien plus puissant et bien plus fiable dans sa reconnaissance, même avec du texte manuscrit ou des lettres "anciennes" et non-regulières.
Le contrecoup de cette fiabilité est évidemment un travail d'analyse plus long (comme vous pourrez vous en rendre compte avec la démo sur leur site).