Fabric Data Ingestion: een persoonlijke visie

Blogs Benito van Breugel

4-9-2025

De afgelopen anderhalf jaar heb ik de kans gehad om met Microsoft Fabric te werken binnen uiteenlopende klantprojecten. In die periode heb ik Fabric leren waarderen als een krachtig en veelzijdig platform voor data-analyse. Toch komt er telkens weer één vraag terug: hoe en waarom kies je een bepaalde methode om data in het platform te laden?

Fabric biedt een geïntegreerde omgeving met meerdere mogelijkheden om data naar het Lakehouse te brengen, een van de kerncomponenten. Maar met zoveel opties op tafel is de logische vervolgvraag:

Welke methode past het beste bij jouw scenario?

In dit artikel deel ik mijn ervaringen met de drie meest gebruikte opties: Notebooks, Copy Data Activity en Dataflow Gen2. De event stream laat ik voorlopig buiten beschouwing. Houd er rekening mee dat de “beste” keuze altijd afhangt van de situatie bij de klant: de grootte en samenstelling van het team, de aanwezige kennis en de strategie voor de toekomst. Heb je vragen of wil je ergens dieper op ingaan? Neem gerust contact op!

Notebooks

De eerste manier om data in Microsoft Fabric te laden, is via notebooks. Daarmee kun je custom code schrijven in PySpark of T-SQL.

Zelf werk ik graag met PySpark-notebooks, omdat ik daarmee volledige controle heb over het inladen en transformeren van data. Dankzij de parallelle verwerkingskracht van Spark kan ik meerdere datasets tegelijk efficiënt verwerken, of ze nu uit API’s komen of uit andere bronnen — allemaal binnen dezelfde omgeving.

Waarom werkt dit voor mij?
Als engineer geeft dit me de vrijheid om het proces naar eigen inzicht vorm te geven. Ik kan kwaliteitscontroles en validaties direct in de workflow opnemen voordat er iets wordt opgeslagen. Dat zorgt vanaf het begin voor betrouwbaarheid.

Het vraagt wel programmeerkennis. Gelukkig versnellen tools als Copilot en ChatGPT het ontwikkelproces aanzienlijk: vaak staat 80% van de oplossing al in enkele minuten. Het is vooral die laatste 20% — de verfijning en klantspecifieke aanpassingen — die de meeste tijd kosten. En eerlijk is eerlijk: gegenereerde code werkt zelden in één keer vlekkeloos.

Wanneer gebruiken?
Notebooks zijn bij uitstek geschikt voor (ervaren) data-engineers, vooral wanneer je werkt met complexe of afwijkende databronnen. Ze zijn ideaal als je platform specifieke logica of handmatige aanpassingen nodig heeft voordat data wordt opgeslagen.

Werk je echter met een medallion-architectuur, dan is het meestal de bedoeling om ruwe data eerst in de bronze layer te landen, zonder transformaties. In dat geval is een Copy Data Activity vaak een betere eerste stap: eenvoudig, efficiënt en speciaal ontworpen voor raw ingestie.

Copy Data (Pipelines)

De Copy Data Activity in Microsoft Fabric is een eenvoudige maar krachtige manier om data van bron naar bestemming te verplaatsen binnen een pipeline. Met meer dan 50 connectors en ondersteuning voor verschillende bestandsformaten kun je snel, schaalbaar en geautomatiseerd data inladen.

Ik gebruik deze optie vooral wanneer de bron bereikbaar is via een van die connectors en de data 1-op-1 naar Fabric moet worden geladen. Geen transformaties, gewoon ruwe data in de bronze layer, zoals het hoort.

Waarom werkt dit voor mij?
In vergelijking met notebooks is Copy Data veel meer plug-and-play. Het is eenvoudig te configureren, plannen en monitoren, en daardoor bruikbaar voor zowel engineers als ervaren business-analisten.

Ik werk zelf altijd met een metadatatabel waarin ik vastleg welke objecten ik wil laden. Zo kan ik bepalen welke datasets parallel lopen en welke na elkaar, waardoor ik prestaties en resourcegebruik optimaliseer. Bovendien heb ik één centrale plek met alle informatie over het dataplatform.

Let wel: als je met on-premises bronnen werkt, heb je een data gateway nodig om verbinding te maken via Copy Data. Maar zodra dat geregeld is, verloopt het proces soepel en efficiënt.

Wanneer gebruiken?
Copy Data is ideaal voor 1-op-1 data-ingestie, zeker in kleinere datateams. Het is low-code, overzichtelijk en perfect voor eenvoudige taken waarvoor je geen diepgaande technische kennis nodig hebt.

Voor API’s gebruik ik echter liever notebooks. Die bieden meer flexibiliteit en controle om complexe logica en dynamische datastructuren te verwerken. Bovendien kan ik in notebooks:

extra Python-packages importeren,
API-sleutels veilig ophalen uit Key Vault,
en eigen logica bouwen, afgestemd op de structuur van de API.

Dataflows Gen2

Dataflow Gen2 in Microsoft Fabric is een krachtige low-code transformatietool gebaseerd op Power Query. Daarmee kun je data uit verschillende bronnen ophalen, opschonen en transformeren richting Lakehouses of Warehouses.

Met meer dan 140 connectors biedt het zelfs bredere connectiviteit dan Copy Data. De Excel-achtige interface maakt het bovendien toegankelijk voor business users en analisten zonder programmeerkennis.

Waarom werkt dit voor mij?
De kracht van Dataflow Gen2 zit in het bouwen van herbruikbare, gebruiksvriendelijke logica. Het is intuïtief, visueel en bevordert samenwerking tussen technische en niet-technische teams.

Maar er zit een keerzijde aan: Dataflow Gen2 verbruikt vier tot acht keer meer Capacity Units (CU’s) dan Notebooks of Copy Data. Dat weegt zwaar mee bij grote hoeveelheden data of frequente runs. Vanuit mijn technische achtergrond en focus op efficiëntie kies ik daarom bijna altijd voor notebooks of Copy Data, tenzij er een duidelijke reden is om Dataflow Gen2 in te zetten.

Wanneer gebruiken?
Dataflow Gen2 is pas interessant wanneer Notebooks of Copy Data niet volstaan. Ik gebruik het alleen in specifieke, goed onderbouwde scenario’s, nadat ik andere opties heb uitgesloten.

De uiteindelijke keuze hangt vaak af van de samenstelling van het klantenteam. Zijn er business users die zelf ingestielogica moeten kunnen bouwen en onderhouden zonder code, dan is Dataflow Gen2 een uitstekende oplossing. Maar voor engineer-gedreven platforms of prestatiekritische workloads raad ik aan bij Notebooks of Copy Data te blijven.

Samengevat

Notebooks

Voor API-integraties
Wanneer je volledige controle nodig hebt
Voor validaties en transformaties
Als er een ervaren engineeringteam is

Copy Data

Voor een 1-op-1 kopie van brondata
Als de bron geen API is
Wanneer er een connector beschikbaar is

Dataflow Gen2

Als de connector niet beschikbaar is in Copy Data
Wanneer het team weinig technische kennis heeft
Voor een gebruiksvriendelijke, businessgerichte aanpak

Wil je advies over de beste ingestiestrategie voor jouw situatie? Neem gerust contact op of bereik me via Wortell, ik help je graag verder!

Ga je naar de European Microsoft Fabric Community Conference? Hopelijk zien we elkaar daar!

Onze auteur

Benito van Breugel

Benito is een ervaren en enthousiaste Data & Analytics Consultant & Team Lead bij Wortell, met een passie voor datagedreven werken en Microsoft Fabric technologie. Met zijn ruime ervaring als Data Engineer, Architect en Team Lead vormt hij een vertrouwde analytische schakel tussen techniek en business. Benito vertaalt nieuwe ontwikkelingen van Data en AI actief naar concrete meerwaarde voor klanten. Energie, scherpte en impact staan bij hem altijd centraal.

Contact me. Bekijk alle artikelen van Benito.