Finance · Bancaire+100 000 collaborateurs150 filiales · 4 continents24 mois

Construire les fondations d'un datalake RH pour un groupe bancaire de dimension mondiale

Un groupe bancaire international gérait ses données RH dans des systèmes fragmentés couvrant 150 filiales sur 4 continents. Aucun référentiel commun, des doublons à grande échelle, et 700 utilisateurs sans outillage BI unifié. Le chantier : construire les fondations d'un datalake RH de zéro.

Le contexte

Des données RH dispersées sur 4 continents, sans référentiel commun

Le groupe opérait avec des systèmes d'information hétérogènes dans chacune de ses zones géographiques : Amériques du Nord et du Sud, Afrique, Asie-Pacifique. Les données RH de ses filiales n'étaient ni consolidées, ni nettoyées, ni gouvernées. Les doublons d'identifiants collaborateurs faussaient les analyses à tous les niveaux. Aucune définition commune de ce qu'était un « employé unique » n'avait jamais été posée.

⚠️

Données RH fragmentées entre des systèmes incompatibles sur 150 entités dans 4 zones géographiques

⚠️

Doublons massifs des identifiants collaborateurs rendant toute analyse groupe impossible

⚠️

Absence de catalogage des flux de données et de cartographie des sources RH

⚠️

700 utilisateurs répartis dans 150 filiales sans outil de BI commun ni formation adaptée

⚠️

Aucune gouvernance des données ni propriétaire identifié pour les référentiels RH

L'approche

Poser les fondations avant de construire

Avant d'engager la moindre migration ou de déployer le moindre outil analytique, le chantier a commencé par ce que la plupart des projets data sautent : définir ce qu'on veut unifier, cartographier ce qui existe, et établir les règles de gouvernance qui rendront les données fiables dans le temps.

🗺️

Cartographie & Catalogue des flux

Inventaire exhaustif des sources de données RH sur 150 entités, cartographie des flux entre systèmes, création d'un catalogue de données groupe permettant de tracer l'origine et la qualité de chaque donnée.

🔬

Algorithme probabiliste de déduplication

Développement d'un algorithme basé sur les probabilités pour identifier et unifier les doublons d'identifiants collaborateurs à l'échelle du groupe — sans correspondance parfaite des systèmes sources. Couverture 100 % des effectifs atteinte.

📊

BI & Formation utilisateurs

Création de reportings RH pour les filiales, mise en place de l'architecture datalake, et déploiement d'un programme de formation des 700 utilisateurs des outils BI groupe répartis dans 150 filiales.

Résultats

Des fondations qui tiennent — et des chiffres qui le prouvent

−50%

Erreurs de doublons éliminées dans les référentiels RH groupe

−30%

Temps d'analyse réduit grâce à l'optimisation des performances de requêtes

100%

Couverture des effectifs avec un identifiant collaborateur unique et fiable

+40%

Adoption des outils BI groupe après programme de formation (700 utilisateurs)

Au-delà des métriques, ce projet a posé quelque chose que les systèmes précédents n'avaient jamais produit : une définition partagée et opérationnelle de ce qu'est un collaborateur dans le groupe. La précision des données RH a progressé de 20 %, réduisant les incohérences inter-systèmes de 25 %. Ce sont ces fondations — pas les outils — qui ont rendu les analyses groupe enfin fiables.

« Le vrai problème n'était pas technique. C'est que personne n'avait jamais défini ce qu'était un identifiant unique avant de commencer. Douze pour cent de doublons sur 100 000 personnes, et personne ne le voyait — parce que personne ne cherchait. »

Technologies & Méthodes

Ce qui a été mobilisé

Data Lake ArchitecturePythonAlgorithme probabilisteData Mapping & CataloguingData CleansingBusiness IntelligenceData GovernanceETL / Pipelines de donnéesFormation utilisateursGestion de projet IT