Comment réduire les coûts de stockage grâce à la catégorisation automatique des documents ?

Découvrez comment les experts de Coexya ont aidé un acteur majeur de l’énergie à optimiser ses coûts de gestion et de stockage documentaire.


La catégorisation automatique des documents, levier concret de réduction des coûts

Le volume des données en entreprise a été multiplié par 5 entre 2020 et 2025, avec une augmentation annuelle moyenne de 35%. Cette croissance exponentielle génère trois problèmes majeurs pour les organisations : l’obsolescence des données non purgées, la complexité croissante de conformité RGPD et réglementaire, et des coûts de stockage qui s’accumulent — matériel, sauvegardes, licences, gestion des doublons. La catégorisation automatique des documents, structurés ou non structurés, en fonction de leur type et de leur contenu, permet de répondre directement à ces trois enjeux.

Le cas client : un acteur majeur de l’énergie

Un acteur du secteur de l’énergie a sollicité Coexya pour concevoir une solution d’optimisation de ses coûts de stockage documentaire. Le principe retenu : la typologie du document détermine sa durée de rétention. La mission consistait donc à automatiser la classification des documents selon un plan de classement en 10 catégories — justificatifs d’identité (10 ans), contrats (15 ans), documents de formation (5 ans), etc. — pour déduire automatiquement la durée de conservation applicable à chaque fichier.

La démarche Coexya en 6 étapes

Les experts du pôle Search & Semantics de Coexya ont déployé un modèle d’apprentissage supervisé, intégrant la solution Sinequa pour l’OCR, l’entraînement et l’application du modèle. Le corpus de départ comprenait environ 1 000 documents annotés manuellement, divisés en corpus d’entraînement (70%), d’évaluation (30%) et d’application. Le projet a été réalisé en moins de 2 mois, dont 1 mois de mise en œuvre et 3 semaines de phase d’évaluation, pour un effort total d’environ 35 jours/homme.

Des résultats mesurables : 80% des catégories avec un F1-score supérieur à 80%

L’évaluation du modèle sur un corpus de 273 documents démontre que 80% des catégories atteignent un F1-score supérieur à 80%. La précision atteint 91% pour les documents classifiés avec un niveau de confiance supérieur à 30%, ce qui représente 77% du volume total. Le modèle s’améliore en continu : les documents classifiés avec une confiance insuffisante sont redirigés vers une annotation manuelle, puis réintégrés dans le corpus d’apprentissage.

Une publication rédigée par les experts du pôle Search & Semantics de Coexya :

Jean-Louis Vila, CTO — Gaël Yvrard, Directeur de projets — Pierre Martin, Ingénieur Commercial

Téléchargez le livre blanc

En savoir plus sur notre offre Search 👉



Ces publications pourraient vous intéresser



Livres blancs 27 Avr 2026

Rationnaliser l’usage du middleware/iPaaS

Les plateformes d’intégration sont aujourd’hui au cœur des systèmes d’information. Pourtant, dans de nombreuses entreprises, elles restent partiellement exploitées, avec un retour sur investissement d...

Lire la suite
Livres blancs 8 Jan 2026

Le règlement sur l’intelligence artificielle (IA) ...

L’IA s’est imposée en quelques années dans les usages, portée par l’essor de l’apprentissage profond et l’arrivée de modèles de langage grand public. Mais cet engouement s’accompagne de questions très...

Lire la suite
Livres blancs 19 Sep 2025

Evaluation d’une solution RAG

Ce livre blanc présente les clés pour déployer et optimiser une solution RAG, grâce à des méthodes concrètes, des cas d’usage et des outils d’évaluation.

Lire la suite
Livres blancs 1 Juil 2025

Gestion documentaire : quel niveau de maturité pou...

Avec l’explosion des données et des exigences réglementaires, la maîtrise de la gestion documentaire est devenue un enjeu stratégique.

Lire la suite
Livres blancs 19 Juin 2025

Prendre en compte l’accessibilité en phase de déve...

Découvrez comment intégrer l’accessibilité tout au long de vos projets pour créer des expériences inclusives et conformes. Ce guide vous aide à en faire une priorité.

Lire la suite
Livres blancs 19 Mai 2025

L’importance de l’accessibilité dans la phase UX/U...

Ce guide sensibilise aux enjeux de l’accessibilité numérique et propose des bonnes pratiques pour offrir des services inclusifs et conformes aux obligations légales.

Lire la suite
Livres blancs 19 Avr 2025

Signature électronique : ajoutez une touche de séc...

Découvrez comment les avancées en sécurité numérique, signature électronique et IA redéfinissent la performance des organisations, dans le supplément Archimag auquel TEDIJI by Coexya a contribué.

Lire la suite
Livres blancs 19 Mar 2025

Êtes-vous prêts pour l’IA générative ? Testez votr...

Faites notre quiz interactif et obtenez immédiatement un diagnostic de votre niveau de maturité en IA.

Lire la suite
Livres blancs 19 Jan 2025

Découvrez comment l’IA révolutionne la reconnaissa...

Téléchargez ce livre blanc pour découvrir comment l’IA transforme la propriété intellectuelle et les bénéfices concrets pour votre entreprise.

Lire la suite
Livres blancs 19 Fév 2024

Favoriser l’intelligence collective dans les organ...

Chez Coexya, nous croyons que la force du collectif et la complémentarité des talents permettent d’obtenir des résultats plus innovants et plus pertinents.

Lire la suite
Livres blancs 19 Oct 2023

Etude : la qualité de vie au travail des professio...

Téléchargez les résultats de notre étude dès maintenant.

Lire la suite
Livres blancs 19 Sep 2023

Protection des données personnelles : ensemble, an...

Pour en savoir plus, téléchargez le livre blanc Protection des données personnelles : ensemble, anticiper le risque, co-écrit avec Microsoft et DPO Consulting.

Lire la suite
Livres blancs 19 Avr 2023

Digitalisation du secteur public : les solutions p...

Pour en savoir plus sur la digitalisation du secteur public, téléchargez le livre blanc réalisé par Archimag avec la contribution des équipes SAE de Coexya.

Lire la suite
Livres blancs 1 Fév 2023

Coexya DéCode : le jargon de l’IT

Ressource précieuse pour vous aider à naviguer dans un univers en constante évolution.

Lire la suite