Module 2 : Architecture et composants

Vue d'ensemble de l'architecture

Azure Synapse est compose de plusieurs couches et composants qui travaillent ensemble :


+----------------------------------------------------------+
|                    SYNAPSE WORKSPACE                      |
|  +--------------------------------------------------+    |
|  |              SYNAPSE STUDIO (Interface Web)       |    |
|  +--------------------------------------------------+    |
|                           |                              |
|  +------------+  +------------+  +------------+          |
|  | SQL Pool   |  | SQL Pool   |  | Spark Pool |          |
|  | Serverless |  |   Dedie    |  |            |          |
|  +------------+  +------------+  +------------+          |
|                           |                              |
|  +--------------------------------------------------+    |
|  |           PIPELINES (Integration de donnees)      |    |
|  +--------------------------------------------------+    |
|                           |                              |
|  +--------------------------------------------------+    |
|  |              LINKED SERVICES (Connexions)         |    |
|  +--------------------------------------------------+    |
+----------------------------------------------------------+
                            |
            +---------------+---------------+
            |               |               |
     Azure Data Lake   Azure SQL DB    Power BI

Composants principaux

1. Synapse Workspace

Le workspace est le conteneur principal qui regroupe toutes vos ressources Synapse. Il inclut :

Un compte de stockage Azure Data Lake Gen2 (obligatoire)
Les pools de calcul (SQL et Spark)
Les pipelines et linked services
Les bases de donnees et scripts

2. Synapse Studio

L'interface web unifiee pour :

Develop : Ecrire des scripts SQL, notebooks Spark, flux de donnees
Integrate : Creer et gerer des pipelines
Monitor : Surveiller les executions et performances
Manage : Configurer les pools, securite, linked services

3. SQL Pools

SQL Serverless (Built-in)
- Pas de provisionnement necessaire
- Paiement a la requete (donnees scannees)
- Ideal pour l'exploration ad-hoc

SQL Dedie (Dedicated Pool)
- Ressources reservees (DWU)
- Haute performance pour workloads intensifs
- Data warehouse permanent

4. Spark Pools

Clusters Apache Spark manages pour :

Traitement de donnees a grande echelle
Machine Learning avec MLlib
Notebooks interactifs (Python, Scala, R, .NET)

5. Pipelines

Herite d'Azure Data Factory, permet de :

Orchestrer des flux ETL/ELT
Copier des donnees entre sources
Executer des activites planifiees
Gerer les dependances entre taches

Flux de donnees typique

Ingestion : Les donnees arrivent via des pipelines dans le Data Lake
Stockage : Donnees brutes stockees en format Parquet/Delta dans ADLS Gen2
Transformation : Traitement avec Spark ou SQL serverless
Serving : Chargement dans un SQL Pool dedie pour les analyses
Visualisation : Connexion a Power BI pour les rapports

Securite et gouvernance

Azure AD : Authentification et gestion des identites
RBAC : Controle d'acces base sur les roles
Private Endpoints : Acces reseau prive
Data masking : Protection des donnees sensibles
Purview : Integration pour la gouvernance des donnees

Module precedent Module suivant : SQL Pools