Iets met data willen, betekent ook nadenken over de manier van databeheer. Grofweg zijn daarbij twee keuzes: een datalake of een datawarehouse. In dit blog gaan we in op waar deze begrippen precies voor staan, wat de verschillen zijn en welk type past bij uw organisatie.
Nut van centrale data-opslag
Bedrijfsinformatie uit allerlei bronnen zoals Exact Online, een inkoopsysteem, uit Google Analytics van de webshop enzovoorts, krijgt meerwaarde als data wordt gecombineerd en daarna diepgaand wordt geanalyseerd. Door data centraal te beheren kan data worden gecombineerd, zodat daaruit nieuwe informatie ontstaat. Bijvoorbeeld omzetcijfers afzetten tegen klikgedrag van bezoekers in de webshop. Er zijn twee methoden om data centraal te beheren: met behulp van een datalake of een datawarehouse.
Datalake: hoe het werkt en wat voor- en nadelen zijn
Een datalake is niets anders dan een centrale plek in waar data nagenoeg ongestructureerd wordt opgeslagen. Bij elkaar behorende plukken informatie wordt onbewerkt in containers opgeslagen, bijvoorbeeld een kopie van alle records van een inkoopsysteem, uitgebrachte offertes, ‘ruwe’ filmmaterialen of allerlei Word-documenten. Er zijn meerdere aanbieders van datalakes zoals Snowflake, Amazon Data Lake en Azure Blob Storage. Iedere aanbieden kent eigen mogelijkheden. Zo biedt Azure Blob Storage naast opslag in de cloud de mogelijkheid data te doorzoeken en te analyseren met behulp van de applicatie Data Lake Analytics. Op deze manier is de data te gebruiken voor analysedoeleinden.
Voordelen van datalake-systemen zijn de prijsstelling, de snelheid en het gemak waarmee een datalake is in te richten. Bovendien is het niet nodig vooraf selecties te maken omdat alle data wordt bewaard. Daarin schuilt echter het risico dat datalake een dataswamp –een data-moeras– wordt, door de grote en ongestructureerde hoeveelheid data. Zoek daarin maar eens de weg. En niet onbelangrijk, het beveiligingsbeleid is lastig te regelen omdat data ongestructureerd is opgeslagen en het daardoor niet mogelijk is toegang per niveau te regelen, het is alles of niets. De analist wordt is daardoor ook verantwoordelijk voor het structureren, niet altijd een rol die goed past.
Datawarehouse: werkwijze en de kracht ervan
Een datawarehouse lijkt sterk op een data lake maar met de data -onder regie van een data-engineer- wet gestructureerd kan worden opgeslagen. Gekozen kan worden uit een centralisatiemodel en een hub-model. Bij het centralisatiemodel worden lokaal kopieën gemaakt van alleen de relevante informatie. Dit model past goed bij de logica van ETL: Extract, Transform and Load. Oftewel: extraheren uit de bronbestanden, transformeren naar een vaste structuur en opslaan in een data warehouse. Bij een hub-model wordt de informatie daarentegen niet opgeslagen, maar worden verschillende dataformaten met behulp van software vertaald naar één uniforme structuur. De data blijft dus staan in bronbestanden.
Het grootste voordeel van datawarehouse is de gestructureerde opzet waardoor bijvoorbeeld ook beveiligingsbeleid tot op het niveau van row-and-column-level permissions is in te regelen. Bovendien kunnen data-analisten makkelijker werken als data tot op een bepaald niveau al is gestructureerd. Het structuren gebeurt over het algemeen door een data-engineer die ook datamodellen moet kunnen maken. Kortom, een datawarehouse vereist specifieke skills en kost meer tijd om op te zetten.
Welke past bij uw organisatie?
Slechts enkele organisaties hebben voldoende aan alleen een datalake. Bijvoorbeeld mediabedrijven met grote hoeveelheden ruwe beeldmateriaal. Voor verreweg de meeste organisaties geldt dat een datawarehouse de voorkeur geniet. Niet alleen doordat data gestructureerd is opgeslagen en het beveiligingsbeleid gedetailleerder is te regelen, ook omdat analisten zich dan in hoofdzaak kunnen richten op het maken van diepgaande analyses. Wanneer een datalake gecombineerd wordt met een datawarehouse, biedt dat nog meer voordelen. Het datalake dient dan als primaire bron voor het datawarehouse. Bovendien fungeert het datalake als beveiligde back-up van alle data want voor een datalake geldt dat er vooraf geen selecties gemaakt worden. De toegang is beperkt tot een engineer. De data-analisten gebruiken het datawarehouse voor analyses.
Grootste voordeel van de combinatie datalake/datawarehouse is dat er één versie van de waarheid ontstaat: alle informatie staat één keer op een goede manier gestructureerd in het datawarehouse.
Het is belangrijk goed na te denken over wat passend is bij uw organisatie. Goed begrip van de onderliggende technieken is dan vereist. DatalabFabriek heeft veel ervaring en meer dan voldoende kennis om ook uw organisatie te begeleiden naar een gestructureerde manier van werken met data. Neem gerust contact met ons op, wij informeren u graag vrijblijvend over ons aanbod. Of plan gelijk een vrijblijvend online gesprek in.