Qu’est ce qu’un OCR ?

Vous vous en êtes sûrement déjà servi, sans même le savoir. Les logiciels de reconnaissance optique de caractères, Optical Character Recognition ou OCR en anglais, permettent d’extraire du texte depuis des images. Souvent invisible, cette technologie alimente des systèmes et des services bien connus de notre vie quotidienne. Retour sur une technologie brillante qui est en pleine évolution.

Qu’est ce que c’est ?

L’OCR est une technologie qui permet d’identifier et de convertir le texte d’un document imprimé ou d’une image en texte informatisé et lisible par un ordinateur. Grâce à ça, les utilisateurs peuvent rapidement digitaliser leurs documents pour les éditer, recopier, archiver ou analyser.

Exemple de digitalisation d’un ticket de caisse avec un OCR

Une brève histoire de l’OCR

Les première traces de l’OCR remontent à 1917 avec l’octophone, un outil qui permettait de convertir du texte en son pour les aveugles. Mary Jameson en fera une démonstration en 1918 ou l’octophone arrivera à lire un livre à la vitesse record d’un mot par minute. Pas mal il y a plus d’un siècle !

Mary Jameson et l’Octophone. Un bon début, mais le futur nous réserve mieux !

En 1951, l’inventeur américain David Shepard développe Gismo, une machine capable de lire les 26 lettres de l’alphabet latin. Ce premier OCR à proprement parler, convertit les messages imprimés en langage machine pour qu’ils puissent ensuite être traités sur un ordinateur. Cette machine évoluera pour devenir la Farrington Automatic Address Reading Machine. Comme son nom l’indique, elle permet de lire automatiquement les addresses. Plutôt utile pour la poste par exemple.

Une employée de poste présente la Farrington Automatic Address Reading Machine vers 1953.

Les premiers OCR devaient être entraînés avec des images de chaque caractère et n’étaient capables de reconnaître qu’une seule police. Il fallut alors attendre plus de 20 ans pour qu’en 1974 le scientifique Ray Kurzweil commercialise un OCR révolutionnaire. Prenant la forme que l’on connait aujourd’hui d’un scanner à plat, son OCR était capable de traiter de multiples typographies. Les grandes entreprises l’adoptent, et le secteur technologique comment à comprendre l’impact potentiel d’une telle technologie. Kurtzweil vendra sa société à Xerox, qui continuera à commercialiser la conversion de texte papier à ordinateur.

En 2006, Google reprend en main l’OCR open-source Tesseract. Cette technologie jusqu’alors réservée aux entreprises et aux connaisseurs devient accessible au grand public. Elle est aujourd’hui disponible aussi bien par le cloud qu’en logiciel de bureau, à des prix accessibles à tous.

La reconnaissance optique de caractères traditionnelle n’a pas beaucoup changé depuis l’invention de Ray Kurtzweil. Depuis la fin des années 2010, l’intelligence artificielle ouvre des perspectives de développement gigantesques. Le machine learning et le deep learning permettent effectivement de faire évoluer une technologie qui a manqué d’innovation pendant trop longtemps.

Une technologie omniprésente

On s’en est déjà presque tous servis, le plus souvent sans le voir. Par exemple en scannant sa carte bleue sur Lydia ou Apple Pay, en déposant des chèques à la banque ou simplement en envoyant du courrier. La démocratisation de l’OCR a permis d’automatiser beaucoup de tâches ingrates et répétitives en supprimant la saisie manuelle. Les bénéfices sont multiples :

  • Augmentation de la productivité : plus besoin de chercher une information précise dans un document ou de saisir ces informations dans un ordinateur manuellement. En dématérialisant vos documents, vous rendez les informations extraites disponibles, modifiables et surtout recherchables.
  • Réduction des coûts : réduisez les équipes dédiées au traitement des documents ou le business process outsourcing. L’automatisation de la saisie de données permet à une personne d’effectuer plus d’opérations. Un bon exemple est la règle 1-10-100 : ça coûte $1 de vérifier l’exactitude des données au point d’entrée, $10 pour corriger ou nettoyer les données une fois saisies, et $100 (ou plus) par enregistrement si rien n’est fait — y compris les coûts associés à la faible rétention de clients, à la baisse de réputation et aux inefficacités .
  • Réduction des erreurs : Évitez les erreurs manuelles qui sont de l’ordre de 18% à 40% pour une simple saisie de données dans une feuille de calcul d’après une publication du professeur Raymond R. Panko. Les gens ne sont pas paresseux ou idiots, ils sont juste humains.
  • Sécurité des données : la sécurité des données est importante pour toutes les entreprises. Les documents papiers peuvent facilement être perdus, volés ou détruits. Ce n’est pas le cas des données numériques, qui peuvent être stockées de façon sécurisée, avec un accès réduit pour éviter toute mauvaise manipulation.

Quelles sont les limites ?

L’OCR traditionnel est limité dans les documents qu’il va pouvoir traiter. La plupart de ces logiciels sont ce qu’on appelle “template-based”, c’est à dire qu’on va leur faire apprendre la trame et le format des documents qu’on souhaite digitaliser. Ils sont incapables de traiter d’autres types de documents que ceux qu’ils connaissent, et ne peuvent pas non plus gérer d’autres mises en page que celles qui ont été apprises. Les factures, par exemple, ont une structure différente d’une entreprise à une autre. En effet, certaines peuvent être simples, avec peu d’informations situées à certains endroits du document (date, numéro de facture, détails du facturé, montant H.T., T.V.A., etc.) alors que d’autres peuvent contenir beaucoup plus de champs, positionnés à des endroits différents. Par conséquent, un OCR traditionnel ne saura pas traiter un document à la structure inconnue.

Aussi, les limitations de l’OCR traditionnel sont nombreuses :

  • il est compliqué d’extraire des informations de documents complexes
  • certains logiciels d’OCR ne traitent pas de multiples typographies simultanément
  • la détection de tableaux est très limitée, et l’extraction de données de tableaux souvent chaotique
  • le bruit est difficilement géré
  • les langues supportées sont limitées
  • pas d’apprentissage continu
  • le nombre de champs extraits par documents est souvent faible

Le futur de l’OCR

La reconnaissance optique de caractères devrait beaucoup évoluer dans les années à venir grâce à l’intelligence artificielle, plus particulièrement grâce à trois domaines :

  • la computer vision, qui permet à l’OCR de détecter les caractères un par un, puis d’utiliser de la classification par images pour identifier chaque caractère.
  • le natural language processing (NLP), qui permet d’identifier les mots, phrases et paragraphes composés par les caractères et d’en comprendre le sens.
  • le machine learning, qui permet d’augmenter et d’améliorer les performances en entraînant par exemple le système à reconnaitre différentes typographies ou à détecter les erreurs et les corriger.

Les types de documents qui pourront être digitalisés, le volume d’informations qui pourra être extrait et donc le nombre de tâches manuelles qui pourra être automatisé devrait exploser grâce aux capacités augmentées de cette technologie. Associé à l’intelligence artificielle, l’OCR traditionnel va devenir un Smart OCR doté de capacités cognitives dont l’application pourrait laisser entrevoir un futur sans traitement manuel de documents.

Comment Nabu peut vous aider à automatiser le traitement de vos documents ?

Vous souhaitez être digitalisé mais vous recevez et traitez toujours des documents papier ou par e-mail ? Pas besoin de solution compliquée ou de changer vos processus. Nabu vous permet de simplifier le traitement de vos documents en automatisant la saisie et le contrôle des informations importantes.

Demandez une démo ou discutez directement avec notre équipe via le Live Chat !