Comment réduire les coûts de stockage grâce à la catégorisation automatique des documents ?

Découvrez comment les experts de Coexya ont aidé un acteur majeur de l’énergie à optimiser ses coûts de gestion et de stockage documentaire.

La catégorisation automatique des documents, levier concret de réduction des coûts

Le volume des données en entreprise a été multiplié par 5 entre 2020 et 2025, avec une augmentation annuelle moyenne de 35%. Cette croissance exponentielle génère trois problèmes majeurs pour les organisations : l’obsolescence des données non purgées, la complexité croissante de conformité RGPD et réglementaire, et des coûts de stockage qui s’accumulent — matériel, sauvegardes, licences, gestion des doublons. La catégorisation automatique des documents, structurés ou non structurés, en fonction de leur type et de leur contenu, permet de répondre directement à ces trois enjeux.

Le cas client : un acteur majeur de l’énergie

Un acteur du secteur de l’énergie a sollicité Coexya pour concevoir une solution d’optimisation de ses coûts de stockage documentaire. Le principe retenu : la typologie du document détermine sa durée de rétention. La mission consistait donc à automatiser la classification des documents selon un plan de classement en 10 catégories — justificatifs d’identité (10 ans), contrats (15 ans), documents de formation (5 ans), etc. — pour déduire automatiquement la durée de conservation applicable à chaque fichier.

La démarche Coexya en 6 étapes

Les experts du pôle Search & Semantics de Coexya ont déployé un modèle d’apprentissage supervisé, intégrant la solution Sinequa pour l’OCR, l’entraînement et l’application du modèle. Le corpus de départ comprenait environ 1 000 documents annotés manuellement, divisés en corpus d’entraînement (70%), d’évaluation (30%) et d’application. Le projet a été réalisé en moins de 2 mois, dont 1 mois de mise en œuvre et 3 semaines de phase d’évaluation, pour un effort total d’environ 35 jours/homme.

Des résultats mesurables : 80% des catégories avec un F1-score supérieur à 80%

L’évaluation du modèle sur un corpus de 273 documents démontre que 80% des catégories atteignent un F1-score supérieur à 80%. La précision atteint 91% pour les documents classifiés avec un niveau de confiance supérieur à 30%, ce qui représente 77% du volume total. Le modèle s’améliore en continu : les documents classifiés avec une confiance insuffisante sont redirigés vers une annotation manuelle, puis réintégrés dans le corpus d’apprentissage.

Une publication rédigée par les experts du pôle Search & Semantics de Coexya :

Jean-Louis Vila, CTO — Gaël Yvrard, Directeur de projets — Pierre Martin, Ingénieur Commercial

Téléchargez le livre blanc

En savoir plus sur notre offre Search 👉

Contactez-nous

Ces publications pourraient vous intéresser

Livres blancs 27 Avr 2026

Rationnaliser l’usage du middleware/iPaaS

Les plateformes d’intégration sont aujourd’hui au cœur des systèmes d’information. Pourtant, dans de nombreuses entreprises, elles restent partiellement exploitées, avec un retour sur investissement d...

Livres blancs 8 Jan 2026

Le règlement sur l’intelligence artificielle (IA) ...

L’IA s’est imposée en quelques années dans les usages, portée par l’essor de l’apprentissage profond et l’arrivée de modèles de langage grand public. Mais cet engouement s’accompagne de questions très...

Livres blancs 19 Sep 2025

Evaluation d’une solution RAG

Ce livre blanc présente les clés pour déployer et optimiser une solution RAG, grâce à des méthodes concrètes, des cas d’usage et des outils d’évaluation.

Livres blancs 1 Juil 2025

Gestion documentaire : quel niveau de maturité pou...

Avec l’explosion des données et des exigences réglementaires, la maîtrise de la gestion documentaire est devenue un enjeu stratégique.

Livres blancs 19 Juin 2025

Prendre en compte l’accessibilité en phase de déve...

Découvrez comment intégrer l’accessibilité tout au long de vos projets pour créer des expériences inclusives et conformes. Ce guide vous aide à en faire une priorité.

Livres blancs 19 Mai 2025

L’importance de l’accessibilité dans la phase UX/U...

Ce guide sensibilise aux enjeux de l’accessibilité numérique et propose des bonnes pratiques pour offrir des services inclusifs et conformes aux obligations légales.

Livres blancs 19 Avr 2025

Signature électronique : ajoutez une touche de séc...

Découvrez comment les avancées en sécurité numérique, signature électronique et IA redéfinissent la performance des organisations, dans le supplément Archimag auquel TEDIJI by Coexya a contribué.

Livres blancs 19 Mar 2025

Êtes-vous prêts pour l’IA générative ? Testez votr...

Faites notre quiz interactif et obtenez immédiatement un diagnostic de votre niveau de maturité en IA.

Livres blancs 19 Jan 2025

Découvrez comment l’IA révolutionne la reconnaissa...

Téléchargez ce livre blanc pour découvrir comment l’IA transforme la propriété intellectuelle et les bénéfices concrets pour votre entreprise.

Livres blancs 19 Fév 2024

Favoriser l’intelligence collective dans les organ...

Chez Coexya, nous croyons que la force du collectif et la complémentarité des talents permettent d’obtenir des résultats plus innovants et plus pertinents.

Livres blancs 19 Oct 2023

Etude : la qualité de vie au travail des professio...

Téléchargez les résultats de notre étude dès maintenant.

Livres blancs 19 Sep 2023

Protection des données personnelles : ensemble, an...

Pour en savoir plus, téléchargez le livre blanc Protection des données personnelles : ensemble, anticiper le risque, co-écrit avec Microsoft et DPO Consulting.

Livres blancs 19 Avr 2023

Digitalisation du secteur public : les solutions p...

Pour en savoir plus sur la digitalisation du secteur public, téléchargez le livre blanc réalisé par Archimag avec la contribution des équipes SAE de Coexya.

Livres blancs 1 Fév 2023

Coexya DéCode : le jargon de l’IT

Ressource précieuse pour vous aider à naviguer dans un univers en constante évolution.

Cookie	Durée	Description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checbox-others		This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durée	Description
__cf_bm	30 minutes	This cookie, set by Cloudflare, is used to support Cloudflare Bot Management.
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.

Cookie	Durée	Description
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_UA-206859296-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au	3 months	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
vuid	2 years	Vimeo installs this cookie to collect tracking information by setting a unique ID to embed videos to the website.

Cookie	Durée	Description
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Durée	Description
cookietest	session	No description
WEBSRVID	session	No description