Module 2 : Architecture et composants
Vue d'ensemble de l'architecture
Azure Synapse est composé de plusieurs couches et composants qui travaillent ensemble :
+----------------------------------------------------------+
| SYNAPSE WORKSPACE |
| +--------------------------------------------------+ |
| | SYNAPSE STUDIO (Interface Web) | |
| +--------------------------------------------------+ |
| | |
| +------------+ +------------+ +------------+ |
| | SQL Pool | | SQL Pool | | Spark Pool | |
| | Serverless | | Dédié | | | |
| +------------+ +------------+ +------------+ |
| | |
| +--------------------------------------------------+ |
| | PIPELINES (Intégration de données) | |
| +--------------------------------------------------+ |
| | |
| +--------------------------------------------------+ |
| | LINKED SERVICES (Connexions) | |
| +--------------------------------------------------+ |
+----------------------------------------------------------+
|
+---------------+---------------+
| | |
Azure Data Lake Azure SQL DB Power BI
Composants principaux
1. Synapse Workspace
Le workspace est le conteneur principal qui regroupe toutes vos ressources Synapse. Il inclut :
- Un compte de stockage Azure Data Lake Gen2 (obligatoire)
- Les pools de calcul (SQL et Spark)
- Les pipelines et linked services
- Les bases de données et scripts
2. Synapse Studio
L'interface web unifiée pour :
- Develop : Écrire des scripts SQL, notebooks Spark, flux de données
- Integrate : Créer et gérer des pipelines
- Monitor : Surveiller les exécutions et performances
- Manage : Configurer les pools, sécurité, linked services
3. SQL Pools
SQL Serverless (Built-in)
- Pas de provisionnement nécessaire
- Paiement à la requête (données scannées)
- Idéal pour l'exploration ad-hoc
- Pas de provisionnement nécessaire
- Paiement à la requête (données scannées)
- Idéal pour l'exploration ad-hoc
SQL Dédié (Dedicated Pool)
- Ressources réservées (DWU)
- Haute performance pour workloads intensifs
- Data warehouse permanent
- Ressources réservées (DWU)
- Haute performance pour workloads intensifs
- Data warehouse permanent
4. Spark Pools
Clusters Apache Spark managés pour :
- Traitement de données à grande échelle
- Machine Learning avec MLlib
- Notebooks interactifs (Python, Scala, R, .NET)
5. Pipelines
Hérité d'Azure Data Factory, permet de :
- Orchestrer des flux ETL/ELT
- Copier des données entre sources
- Exécuter des activités planifiées
- Gérer les dépendances entre tâches
Flux de données typique
- Ingestion : Les données arrivent via des pipelines dans le Data Lake
- Stockage : Données brutes stockées en format Parquet/Delta dans ADLS Gen2
- Transformation : Traitement avec Spark ou SQL serverless
- Serving : Chargement dans un SQL Pool dédié pour les analyses
- Visualisation : Connexion à Power BI pour les rapports
Sécurité et gouvernance
- Azure AD : Authentification et gestion des identités
- RBAC : Contrôle d'accès basé sur les rôles
- Private Endpoints : Accès réseau privé
- Data masking : Protection des données sensibles
- Purview : Intégration pour la gouvernance des données