Module 2 : Architecture et composants
Vue d'ensemble de l'architecture
Azure Synapse est compose de plusieurs couches et composants qui travaillent ensemble :
+----------------------------------------------------------+
| SYNAPSE WORKSPACE |
| +--------------------------------------------------+ |
| | SYNAPSE STUDIO (Interface Web) | |
| +--------------------------------------------------+ |
| | |
| +------------+ +------------+ +------------+ |
| | SQL Pool | | SQL Pool | | Spark Pool | |
| | Serverless | | Dedie | | | |
| +------------+ +------------+ +------------+ |
| | |
| +--------------------------------------------------+ |
| | PIPELINES (Integration de donnees) | |
| +--------------------------------------------------+ |
| | |
| +--------------------------------------------------+ |
| | LINKED SERVICES (Connexions) | |
| +--------------------------------------------------+ |
+----------------------------------------------------------+
|
+---------------+---------------+
| | |
Azure Data Lake Azure SQL DB Power BI
Composants principaux
1. Synapse Workspace
Le workspace est le conteneur principal qui regroupe toutes vos ressources Synapse. Il inclut :
- Un compte de stockage Azure Data Lake Gen2 (obligatoire)
- Les pools de calcul (SQL et Spark)
- Les pipelines et linked services
- Les bases de donnees et scripts
2. Synapse Studio
L'interface web unifiee pour :
- Develop : Ecrire des scripts SQL, notebooks Spark, flux de donnees
- Integrate : Creer et gerer des pipelines
- Monitor : Surveiller les executions et performances
- Manage : Configurer les pools, securite, linked services
3. SQL Pools
SQL Serverless (Built-in)
- Pas de provisionnement necessaire
- Paiement a la requete (donnees scannees)
- Ideal pour l'exploration ad-hoc
- Pas de provisionnement necessaire
- Paiement a la requete (donnees scannees)
- Ideal pour l'exploration ad-hoc
SQL Dedie (Dedicated Pool)
- Ressources reservees (DWU)
- Haute performance pour workloads intensifs
- Data warehouse permanent
- Ressources reservees (DWU)
- Haute performance pour workloads intensifs
- Data warehouse permanent
4. Spark Pools
Clusters Apache Spark manages pour :
- Traitement de donnees a grande echelle
- Machine Learning avec MLlib
- Notebooks interactifs (Python, Scala, R, .NET)
5. Pipelines
Herite d'Azure Data Factory, permet de :
- Orchestrer des flux ETL/ELT
- Copier des donnees entre sources
- Executer des activites planifiees
- Gerer les dependances entre taches
Flux de donnees typique
- Ingestion : Les donnees arrivent via des pipelines dans le Data Lake
- Stockage : Donnees brutes stockees en format Parquet/Delta dans ADLS Gen2
- Transformation : Traitement avec Spark ou SQL serverless
- Serving : Chargement dans un SQL Pool dedie pour les analyses
- Visualisation : Connexion a Power BI pour les rapports
Securite et gouvernance
- Azure AD : Authentification et gestion des identites
- RBAC : Controle d'acces base sur les roles
- Private Endpoints : Acces reseau prive
- Data masking : Protection des donnees sensibles
- Purview : Integration pour la gouvernance des donnees