Les entreprises confrontées à des tâches manuelles et axées sur les données peinent à atteindre leur plein potentiel. Historiquement, les entreprises dont le traitement automatisé des documents était inefficace ont souffert de flux de travail non productifs et n’ont pas atteint leurs objectifs.
L’émergence de l’automatisation cognitive des documents (CDA) a permis aux organisations de créer un flux de travail transparent grâce à la “Capture Automatique”. La Capture Automatique nous permet de gérer efficacement les documents et les e-mails, et de tirer le meilleur parti des informations contenues dans les documents.
Cependant, les entreprises doivent encore faire face à plusieurs défis en matière de gestion des documents en raison des limites des solutions CDA. Dans cet article, nous aborderons directement ces défis et suggérerons des conseils sur la manière de construire des bases solides pour la capture automatique.
13 conseils pour optimiser la capture automatisée.
1. Source d’image
La source de nos images peut facilement affecter leur qualité. Bien que cela puisse nous sembler trivial, cela affecte négativement la précision de notre classification et l’exactitude de l’extraction. En d’autres termes, les documents tels que les télécopies auront une qualité d’image inférieure par rapport à un PDF numérique d’origine.
En même temps, tous les scanners ont différents niveaux de capacité de numérisation en fonction de la qualité du fournisseur et du modèle.
2. Type de fichier image et résolution
Certains types de fichiers image ont une meilleure qualité inhérente que d’autres. Les GIF à 300 dpi sont les plus courants, mais souvent, les entreprises ne peuvent pas contrôler le type de fichier reçu de sources externes. Les images de résolution inférieure auront des niveaux de classification et d’extraction moins précis (300 dpi est considéré comme idéal).
3. Qualité de l’image
Le dicton « garbage in, garbage out » s’applique également à la CDA. Les images faxées à plusieurs reprises, les images mobiles avec inclinaison, flou, arrière-plan similaire ou mauvais éclairage, les scans monochromes, les documents avec des tampons, des gribouillis et des taches… tout cela peut affecter la précision de la classification et de l’extraction. Les images acquises par les solutions CDA devraient être traitées et perfectionnées avant d’appliquer la classification et l’extraction automatisées pour assurer une précision maximale possible.
4. Collecte de documents
Le nombre d’échantillons et leur similitude avec le monde réel ont également un impact sur la précision. En règle générale, plus il y a d’échantillons « apprentis » par la solution CDA, mieux c’est. Le nombre d’échantillons requis varie de quelques-uns à des centaines, selon le type de document. Les échantillons devraient refléter aussi fidèlement que possible ce qui sera vu dans le « monde réel » lors du traitement de production.
Découvrez cette étude de cas sur la façon dont Laurentide Controls a économisé environ 10 000 $ par mois en adoptant une solution d’automatisation des AP…
5. Formulaires structurés
Les formulaires structurés ont généralement le niveau le plus élevé de classification et de précision d’extraction, et nécessitent le moins d’échantillons formés. Néanmoins, la conception du formulaire aura un impact significatif sur la précision, de la proximité des champs entre eux aux cases de champs par rapport aux boîtes de lettres, en passant par l’ombrage des champs (le cas échéant). Si votre organisation a le contrôle sur la conception du formulaire, assurez-vous qu’il est conçu pour un potentiel d’automatisation maximal.
6. Documents Semi-Structurés
Les documents semi-structurés tels que les factures, les bons de commande, les bons de livraison et les connaissements ont généralement une précision inférieure par rapport aux formulaires structurés. Les différentes solutions CDA ont différentes approches pour localiser les données souhaitées, et certaines sont plus fiables que d’autres pour trouver les données et les extraire avec succès. Ces documents ont également tendance à contenir des tableaux intégrés (par exemple, les articles de facture), plusieurs tableaux ou des tableaux imbriqués qui peuvent avoir des taux d’extraction inférieurs à ceux des champs réguliers.
7. Documents Non Structurés
Les documents non structurés tels que les courriels (corps), les lettres et les contrats sont les plus difficiles à classer et à extraire automatiquement. Les technologies basées sur l’IA telles que le traitement du langage naturel (NLP) ont amélioré les taux d’extraction pour ces types de documents ces dernières années.
8. Type d’Impression
Le type d’impression sur le document affecte également les taux de précision de l’extraction. En général, les champs imprimés par machine ont les taux de précision les plus élevés, suivis des champs imprimés à la main, puis des champs en écriture cursive. Pour l’impression machine, le type de police et l’espacement des caractères influencent également les taux de précision. La langue du document peut également avoir un impact sur les taux de précision. Les moteurs OCR utilisés par les solutions CDA présentent des taux de précision OCR variables selon la langue, les langues latines revendiquant généralement les taux de précision les plus élevés.
9. Codes-barres et Cases à cocher
Les champs de codes-barres et de cases à cocher présentent généralement la plus grande précision d’extraction sur un document. Il n’est pas rare que les solutions CDA affichent un pourcentage de précision dans les années 90 pour l’extraction des valeurs de codes-barres et des valeurs de cases à cocher/bulles. Cependant, il existe des dizaines de codes-barres en utilisation, y compris des codes-barres 1D, 2D et maintenant 3D (2D avec couleur), donc assurez-vous que la solution CDA prend en charge les codes-barres les plus couramment rencontrés.
10. Signatures
L’une des principales raisons pour lesquelles le papier est encore utilisé par de nombreuses organisations est l’exigence d’une signature, et la signature papier doit être capturée, classée et extraite. Le passage aux signatures électroniques peut éliminer la nécessité de numériser sur papier, ce qui améliore la productivité et la capacité de vos utilisateurs de CDA. Réfléchissez à la nécessité de simplement détecter la présence d’une signature, ou de vérifier la signature et de détecter la fraude.
11. Bases de données
Les taux de précision de classification et d’extraction d’une solution CDA peuvent s’améliorer considérablement grâce à l’utilisation de bases de données. En faisant correspondre des contenus similaires dans les bases de données, les erreurs OCR mineures peuvent être ignorées. Le résultat ? Moins d’intervention humaine pour confirmer/corriger les résultats OCR à faible fiabilité. Le contenu de la base de données peut inclure des noms de clients, des numéros de compte, des données ERP telles que le numéro de commande d’achat ou le nom du fournisseur, des dictionnaires de mots spécifiques à des industries ou des langues, etc.
12. Règles
Les règles peuvent également être utilisées pour augmenter la précision d’extraction d’un champ. Par exemple, vérifier que le sous-total plus la taxe équivaut au total est une règle simple qui peut signaler toute erreur, même après qu’un être humain a corrigé une valeur de ce champ. Les règles de formatage sont également un moyen simple d’assurer une grande précision des champs (par exemple, un numéro de sécurité sociale doit toujours avoir le format xxx-xx-xxxx, où x est un chiffre entre 0 et 9). Vérifier les sommes de contrôle des valeurs de champ augmente également la précision d’extraction des champs.
12. Systèmes de destination
Les solutions CDA ne sont pas complètes sans un moyen facile d’envoyer les documents et les données vers les systèmes, les processus et les personnes qui en ont besoin. La productivité des utilisateurs diminue énormément si ces derniers doivent déplacer manuellement les images de documents et les données d’un système à un autre. N’oubliez pas qu’un robot RPA peut automatiser le processus de déplacement et d’agrégation des données entre les systèmes si un connecteur prêt à l’emploi pour le système de destination n’est pas disponible.