Module 2 : Architecture et composants

Vue d'ensemble de l'architecture

Azure Synapse est composé de plusieurs couches et composants qui travaillent ensemble :


+----------------------------------------------------------+
|                    SYNAPSE WORKSPACE                      |
|  +--------------------------------------------------+    |
|  |              SYNAPSE STUDIO (Interface Web)       |    |
|  +--------------------------------------------------+    |
|                           |                              |
|  +------------+  +------------+  +------------+          |
|  | SQL Pool   |  | SQL Pool   |  | Spark Pool |          |
|  | Serverless |  |   Dédié    |  |            |          |
|  +------------+  +------------+  +------------+          |
|                           |                              |
|  +--------------------------------------------------+    |
|  |           PIPELINES (Intégration de données)      |    |
|  +--------------------------------------------------+    |
|                           |                              |
|  +--------------------------------------------------+    |
|  |              LINKED SERVICES (Connexions)         |    |
|  +--------------------------------------------------+    |
+----------------------------------------------------------+
                            |
            +---------------+---------------+
            |               |               |
     Azure Data Lake   Azure SQL DB    Power BI

Composants principaux

1. Synapse Workspace

Le workspace est le conteneur principal qui regroupe toutes vos ressources Synapse. Il inclut :

Un compte de stockage Azure Data Lake Gen2 (obligatoire)
Les pools de calcul (SQL et Spark)
Les pipelines et linked services
Les bases de données et scripts

2. Synapse Studio

L'interface web unifiée pour :

Develop : Écrire des scripts SQL, notebooks Spark, flux de données
Integrate : Créer et gérer des pipelines
Monitor : Surveiller les exécutions et performances
Manage : Configurer les pools, sécurité, linked services

3. SQL Pools

SQL Serverless (Built-in)
- Pas de provisionnement nécessaire
- Paiement à la requête (données scannées)
- Idéal pour l'exploration ad-hoc

SQL Dédié (Dedicated Pool)
- Ressources réservées (DWU)
- Haute performance pour workloads intensifs
- Data warehouse permanent

4. Spark Pools

Clusters Apache Spark managés pour :

Traitement de données à grande échelle
Machine Learning avec MLlib
Notebooks interactifs (Python, Scala, R, .NET)

5. Pipelines

Hérité d'Azure Data Factory, permet de :

Orchestrer des flux ETL/ELT
Copier des données entre sources
Exécuter des activités planifiées
Gérer les dépendances entre tâches

Flux de données typique

Ingestion : Les données arrivent via des pipelines dans le Data Lake
Stockage : Données brutes stockées en format Parquet/Delta dans ADLS Gen2
Transformation : Traitement avec Spark ou SQL serverless
Serving : Chargement dans un SQL Pool dédié pour les analyses
Visualisation : Connexion à Power BI pour les rapports

Sécurité et gouvernance

Azure AD : Authentification et gestion des identités
RBAC : Contrôle d'accès basé sur les rôles
Private Endpoints : Accès réseau privé
Data masking : Protection des données sensibles
Purview : Intégration pour la gouvernance des données

Module précédent Module suivant : SQL Pools