Comment réduire les coûts de stockage grâce à la catégorisation automatique des documents ?
Découvrez comment les experts de Coexya ont aidé un acteur majeur de l’énergie à optimiser ses coûts de gestion et de stockage documentaire.
La catégorisation automatique des documents, levier concret de réduction des coûts
Le volume des données en entreprise a été multiplié par 5 entre 2020 et 2025, avec une augmentation annuelle moyenne de 35%. Cette croissance exponentielle génère trois problèmes majeurs pour les organisations : l’obsolescence des données non purgées, la complexité croissante de conformité RGPD et réglementaire, et des coûts de stockage qui s’accumulent — matériel, sauvegardes, licences, gestion des doublons. La catégorisation automatique des documents, structurés ou non structurés, en fonction de leur type et de leur contenu, permet de répondre directement à ces trois enjeux.
Le cas client : un acteur majeur de l’énergie
Un acteur du secteur de l’énergie a sollicité Coexya pour concevoir une solution d’optimisation de ses coûts de stockage documentaire. Le principe retenu : la typologie du document détermine sa durée de rétention. La mission consistait donc à automatiser la classification des documents selon un plan de classement en 10 catégories — justificatifs d’identité (10 ans), contrats (15 ans), documents de formation (5 ans), etc. — pour déduire automatiquement la durée de conservation applicable à chaque fichier.
La démarche Coexya en 6 étapes
Les experts du pôle Search & Semantics de Coexya ont déployé un modèle d’apprentissage supervisé, intégrant la solution Sinequa pour l’OCR, l’entraînement et l’application du modèle. Le corpus de départ comprenait environ 1 000 documents annotés manuellement, divisés en corpus d’entraînement (70%), d’évaluation (30%) et d’application. Le projet a été réalisé en moins de 2 mois, dont 1 mois de mise en œuvre et 3 semaines de phase d’évaluation, pour un effort total d’environ 35 jours/homme.
Des résultats mesurables : 80% des catégories avec un F1-score supérieur à 80%
L’évaluation du modèle sur un corpus de 273 documents démontre que 80% des catégories atteignent un F1-score supérieur à 80%. La précision atteint 91% pour les documents classifiés avec un niveau de confiance supérieur à 30%, ce qui représente 77% du volume total. Le modèle s’améliore en continu : les documents classifiés avec une confiance insuffisante sont redirigés vers une annotation manuelle, puis réintégrés dans le corpus d’apprentissage.
Une publication rédigée par les experts du pôle Search & Semantics de Coexya :
Jean-Louis Vila, CTO — Gaël Yvrard, Directeur de projets — Pierre Martin, Ingénieur Commercial
En savoir plus sur notre offre Search 👉