Datawarehouse:
stap één om data tot informatie om te zetten
Met de aanschaf van een datawarehouse bent u er nog niet. Veilig werken met privacygevoelige informatie vereist dat uw organisatie beleid ontwikkelt op dit gebied. Ook moet u nadenken over opslag –wat, waar en voor hoe lang– en de toegangsrechten. Met een dataplatform regelt u dit op één centrale plek.
Een doordacht plan zorgt dat een datawarehouse waarde toevoegt voor uw organisatie.
Databeheer & veiligheid
Datagedreven werken betekent dat alle dagelijkse beslissingen binnen een organisatie met cijfermatig onderzoek ondersteund of juist geïnitieerd worden. Het betekent ook nadenken over hoe uw organisatie praktisch, betrouwbaar en oprecht ethisch omgaat met data.
Veel bedrijfsapplicaties zijn losstaande silo’s: je stopt er veel in, soms zelfs dubbelop in verschillende applicaties, maar bruikbare inzichten eruithalen blijkt in de praktijk lastig doordat het combineren van data tussen deze silo’s onmogelijk is. Een datawarehouse opzetten is dan de eerste stap in het afbreken van de silo’s. Een goed ingericht datawarehouse betekent meer dan onderling ‘pratende’ applicaties. Daarom is het belangrijk goed te weten wat er allemaal komt kijken bij goed databeheer. Een doordacht plan zorgt dat een datawarehouse waardevol is voor uw organisatie.
Wie is eigenaar van uw data?
Deze vraag lijkt voor de hand liggend, maar in de praktijk is het toch lastig. Veel softwareleveranciers slaan data op in eigen aan de applicatie gekoppelde datacentra. Dat lijkt een handig, want u heeft er nagenoeg geen omkijken naar. Keerzijde: wie is dan eigenaar van deze data? Met onze kennis voorkomt u achteraf discussie over dit soort zaken.
Datawarehouse en databronnen
Het inrichten van uw datawarehouse bepaalt in belangrijke mate de toekomstige bruikbaarheid. Het is van groot belang kritisch te kijken naar de wensen nu én in de toekomst. Het ontsluiten van databronnen van buiten uw eigen organisatie -zoals die van het CBS, gegevens van de KvK, diverse adresbestanden- kan waardevol zijn. Juist de mix van data voegt extra waarde toe zodat uw organisatie een voorsprong neemt op de concurrent.
ETL
Een veelgehoorde term bij datawarehousing is ETL. Deze afkorting omschrijft een manier van werken om data uit diverse bronnen te ontsluiten. ETL staat voor:
Extract: data uit een bron ophalen
Transform: opgehaalde data omzetten volgens bepaalde regels en opzoektabellen of combinaties maken van data uit verschillende bronnen;
Load: de data wegschrijven op een andere plaats.
ETL benoemt dus de diverse processtappen die nodig zijn om gegevens uit verschillende gestructureerde databases te verenigen in één centrale database, het datawarehouse. Bij elke stap zijn een veelheid aan keuzes te maken, afhankelijk van de wensen en de (financiële) mogelijkheden. Het goed inrichten van de technische infrastructuur vereist veel kennis en kunde. Niet alleen voor degenen die het daadwerkelijk uitvoeren, juist het management moet zich bewust zijn van de consequenties van die keuzes.
Datalab staat u graag bij. Er zijn verschillende technische oplossingen om data te benaderen en gelijktijdig rekening te houden met (terecht steeds strenger wordende) veiligheidseisen. Bijvoorbeeld door het gebruiken van afgeschermde analyse-omgevingen waar alleen specifiek bevoegde medewerkers toegang tot hebben. Of ‘row & column-level security’, waarbij heel precies is vastgelegd welke gebruiker bij welke gegevens kan.
Uw (gevoelige) data in de cloud, of liever binnen de muren van uw kantoor?
De meeste organisaties kiezen bij een datawarehouse gelijk ook voor een cloud-gebaseerde oplossingen. Alle data staat dan opgeslagen op externe servers in de cloud. De processen die zorgen voor het aanleveren, controleren en up-to-date houden van die data, worden dan ook in de cloud belegd.
Dit kent tal van voordelen. Zo is de kwaliteit van cloudomgevingen bijzonder goed, is de beschikbaarheid vrijwel 100% gegarandeerd en door de hoge mate van standaardisering kunt u snel aan de slag. Maar er zijn ook nadelen. ‘De cloud’ is een abstract begrip, het komt in feite neer op het afhuren van de computercapaciteit in een datacentrum. Daardoor kan –in theorie– de partij waarvan u huurt, ook bij uw data komen. Gelukkig zijn er veel technieken om dit risico beheersbaar te maken.
Microsoft, Google of toch Amazon?
In Nederland is de meestgebruikte cloud-oplossing die van Microsoft Azure. Dit is een volwassen cloudomgeving, voldoet aan hoge privacy-eisen en sluit vaak goed aan bij de software die u op kantoor gebruikt.
Toch is Azure zeker niet de enige keuze. Wat dacht u van Amazon AWS? Dit wordt ook wel de ‘oorspronkelijke cloud’ genoemd, omdat Amazon één van de eerste grootschalige cloud-leveranciers is. Deze cloudomgeving is vanuit technisch perspectief ook de meest geavanceerde. Nadeel ten opzichte van Microsoft Azure is het wel meer ‘Amerikaans’ omgaat met de privacy- en compliance vereisten, die eisen zijn in Europa beduidend strenger en dus een punt van zorg. Dat geldt ook voor de cloudomgeving van Google. Dit is technisch gezien de meest beperkte cloud maar wel voordelig en gestoeld op de hoogwaardige kennis en technieken van Google.
Soms is de reguliere cloud niet geschikt. Dit geldt bijvoorbeeld wanneer u met zeer gevoelige (denk aan medische) data werkt. In die gevallen is het mogelijk om, samen met uw IT-beheerorganisatie, een zogenaamde ‘on-premise‘-oplossing te onderzoeken. Of speciale extra beveiligde cloudomgevingen te gebruiken. Datalab werkt samen met toonaangevende leveranciers van puur-Nederlandse cloud- en hosting-partijen. Zo zijn de voordelen van de cloud te combineren met de zeer hoge eisen aan wetgeving, dataveiligheid en privacy.
Wáár u uw data onderbrengt is belangrijk, wélke data u opslaat is dat ook. Het risico op ‘garbage in, garbage out‘ is levensgroot. Datakwaliteit inzichtelijk maken voorkomt teleurstelling.