Le projet avait pour but de mettre en œuvre une architecture Data Mesh sur GCP. Nos principaux objectifs comprenaient :
Conception de Domaines de Données et de Produits Distincts : Identifier et structurer des domaines de données indépendants et leurs produits associés.
Configuration des Sources de Données et des Destinations : Définir et connecter les sources de données aux destinations appropriées.
Établissement des Pipelines ETL : Mettre en place des pipelines pour l’extraction, le chargement et la transformation des données à l’aide d’Airflow.
Mise en Œuvre d’un Pipeline d’Apprentissage Automatique : Créer un pipeline ML pour le cycle de vie MLOps avec Kubeflow.
Assurer la Gouvernance des Données : Intégrer Datahub pour la gouvernance des données sur Cloud Storage, BigQuery et Airflow.
Plateforme
Nous avons choisi Google Cloud Platform (GCP) pour ce projet en raison de sa robustesse, de sa scalabilité et de son large éventail de services adaptés aux besoins modernes de gestion de données et de machine learning.
Services Utilisés
Voici les principaux services GCP utilisés dans ce projet :
Cloud Run : Pour déployer et gérer des conteneurs de manière flexible.
API Gateway : Pour gérer les API et assurer la sécurité des services.
Looker : Pour les visualisations de données et les analyses avancées.
Kubeflow : Pour orchestrer les workflows de machine learning et gérer le cycle de vie des modèles ML.
Airflow : Pour automatiser les workflows ETL.
Cloud Storage : Pour le stockage des données.
Cloud SQL : Pour les bases de données relationnelles.
Google Kubernetes Engine (GKE) : Pour orchestrer les conteneurs et assurer la scalabilité des applications.
Cloud KMS : Pour la gestion des clés de chiffrement.
Conclusion
Ce projet a démontré notre capacité à implémenter une architecture Data Mesh complexe sur GCP, en utilisant une gamme de services avancés pour répondre aux besoins de gestion des données et de machine learning. Grâce à une approche décentralisée et orientée produit, nous avons pu créer une infrastructure scalable et flexible, tout en assurant une gouvernance rigoureuse des données.
Notre expertise dans l’utilisation des technologies de pointe et notre engagement envers la qualité des données nous ont permis de livrer une solution robuste, adaptée aux exigences du paysage numérique actuel.