Datagedreven werken betekent dat data wordt ingezet als feitelijke onderbouwen bij diverse keuzes, zowel bij strategische als voor dagelijkse operationele zaken. Datagedreven werken behelst meer dan alleen data uit systemen ophalen: het brengt ook een organisatieverandering met zich mee.
Starten met datagedreven werken begint bij het inventariseren van de mogelijkheden op het gebied van data (welke data is er en welke ontbreekt), de mogelijkheden om data te verwerken (tooling en kennis) én wat de betekenis is van data voor de organisatie (ofwel acceptatie door de hele organisatie). Belangrijk is vooraf goed te realiseren wat u wilt bereiken met datagadreven werken. Er komt dus veel bij kijken, daarom is het verstandig externe kennis te gebruiken bij tenminste het opstarten.
Data en gegevens zijn eigenlijk hetzelfde. Het betreft een vastlegging van feiten of begrippen die verder kunnen worden verwerkt. Data is daarmee nog geen informatie, daarvoor is het noodzakelijk dat de data in een context moet worden geplaatst. Data, of gegevens dus, kunnen bestaan uit verschillende varianten. Denk aan teksten, cijfers, tijdstippen, visuele informatie, audio en video. Data kunnen worden verzameld in een database of dataset. Al deze data geven een beeld van de werkelijkheid.
Cloud -cloud computing of cloud service- is het via internet beschikbaar stellen van digitale opslagruimte voor zowel data als applicaties. De gebruiker hoeft geen eigenaar te zijn van de gebruikte applicaties en dataopslag en is daarmee ook niet verantwoordelijk voor het onderhoud en beheer.
De cloud bestaat uit een verzameling servers en datacenters waar gegevens worden opgeslagen. Dus nog steeds een fysieke plek! Groot voordeel is dat je de cloud vanaf elke willekeurige plek met een internetverbinding kunt benaderen. Providers van clouddiensten beschikken over een grote hoeveelheid servers, zogenaamde ‘server farms’ in datacenters over de hele wereld.
Een datalab is een naam voor een (sub)afdeling binnen een organisatie die verantwoordelijk is voor het beheren en verwerken van data. Deze afdeling bestaat meestal uit één of meerdere businessanalisten, data-analisten of data scientists. Doel van een datalab is vragen vanuit de organisatie te beantwoorden op basis van data-analyse, vragen te ontwikkelen op basis van signalen die voortkomen uit data enzovoorts. Als het datalab optimaal functioneert, starten veel analyses op eigen initiatief, geïnitieerd door signalen die voortkomen uit de data.
Een datawarehouse is een databeheersysteem dat is ontworpen om analyse-activiteiten mogelijk te maken. In een datawarehouse staan grote hoeveelheden data uit vaak meerdere bronnen gecentraliseerd, gestructureerd, opgeschoond en geconsolideerd. Hierdoor ontstaan allerlei analytische mogelijkheden die organisaties in staat stellen om waardevolle inzichten uit die data te halen. Een datawarehouse wordt vaak beschouwd als de ‘enige bron van waarheid’ voor de betreffende organisatie.
Voor het opslaan van grote hoeveelheden ruwe data op één centrale plaats, kan gekozen worden voor een datalake. Een datalake verschilt ten opzichte van een datawarehouse in de manier waarop data verwerkt en opgeslagen wordt. Bij een datalake worden alle soorten gestructureerde en ongestructureerde data in allerlei vormen (zoals ruwe bestanden, beelden of berichten) en in originele vorm opgeslagen.
Een datalake biedt voordelen bij de analyse van complexere data, omdat er geen rekening gehouden hoeft te worden met de beperkingen die de vaste structuur van een datawarehouse kan opleggen. Beide opslagtechnologieën beschikken over specifieke eigenschappen, de keuze voor een van deze twee wordt met name bepaald door welke soort data u heeft en naar welke resultaten u zoekt. Een datawarehouse en datalake hoeven elkaar niet uit te sluiten: beide kunnen gelijktijdig naast elkaar worden gebruikt.
Een data swamp is een ongeorganiseerde vorm van data in een datalake of datawarehouse. Doordat er geen structuur aan ten grondslag ligt, is de data waardeloos want niet bruikbaar. Door het bewaken van de datakwaliteit en de data goed te onderhouden, voorkom je een data swamp.
Datamanagement richt zich op het actueel houden, opslaan, beveiligen en bruikbaar maken én houden van alle relevante data in een organisatie. Het belang van datamanagement wordt steeds groter omdat in de meeste organisaties de hoeveelheid data almaar toeneemt. Steeds meer communicatie, zowel intern als extern, verloopt steeds vaker digitaal, ook een vorm van data. Cybercriminaliteit neemt een steeds grotere vlucht waardoor ook het belang van databeveiliging toeneemt. Tot slot maakt wet- en regelgeving, zoals de AVG, het noodzakelijk dat het databeheer aan strengere eisen voldoet.
Een serverfarm is een groep van genetwerkte servers, het verdeelt de belasting tussen de afzonderlijke servers zodat de rekenkracht van verschillende servers optimaal wordt benut.
Business Intelligence (BI) is een benaderingswijze van data en maakt gebruik van beschrijvende statistiek voor bedrijfsmatige vraagstukken, de wat-vraag. De kerntaak van BI is de in de organisatie aanwezige data vertalen naar bruikbare informatie in de vorm van gepersonaliseerde dashboards en dynamische rapporten. Door het koppelen van verschillende databronnen, ontstaat waardevolle informatie. Het gaat dan bijvoorbeeld om gegevens vanuit ERP-software, CRM-systeem, voorraadbeheerssysteem, document management oplossing of financiële pakketten. BI kent een beperktere diepgang dan business analytics of data science.
Business Analytics (BA) is eveneens een benaderingswijze van data maar gaat een stap verder dan business intelligence: het onderzoekt ook de waarom-vraag. BA analyseert data met het doel inzichten te krijgen in de processen waarop die data betrekking heeft waarbij naast verbanden ook trends te herkennen en voorspellingen te doen. Daarom is domeinkennis een vereiste, evenals vaardigheden om met grote hoeveelheden data om te kunnen gaan. Voorbeelden van vragen waarop BA antwoorden geeft zijn: Waarom valt een productieproces stil? Waarom haken klanten af?
Data science maakt gebruik van complexe wiskundige modellen om patronen in data te ontdekken, om voorspellingen te kunnen doen, uit zowel gestructureerde als ongestructureerde data. Hoe slimmer deze data gestructureerd en gecombineerd wordt, des te waardevoller de informatie is die daaruit komt. Een voorbeeld van een onderzoeksvraag is het in kaart brengen welke combinatie van factoren leidt tot hapering in een productieproces.
Artificial intelligence (AI) is het vermogen van computers om taken uit te voeren waarvoor mensen hun intelligentie inzetten. Denk aan interactie met de omgeving, analyseren, redeneren, problemen oplossen en voorspellingen doen.
AI bestaat in de kern uit twee bestanddelen: een algoritme en data. Een algoritme is een reeks van instructies die leidt tot een bepaald resultaat. Data is de grondstof die algoritme laat werken. Door meer data te analyseren kan het algoritme betere aanbevelingen doen. AI heeft onderhoud nodig, de werking ervan is zo goed of slecht als de kwaliteit van het algoritme dat door mensen is bedacht en de data waarmee het is getraind. Zorgvuldige omgang is eveneens belangrijk, vooral wat betreft de conclusies en aanbevelingen. Het is van belang om te weten hoe een AI-systeem tot beslissingen komt, het mag niet tot een zogenaamde ‘black box’ verworden.
Een veelgehoorde term bij datawarehousing is ETL. Deze afkorting omschrijft een manier van werken om data uit diverse bronnen te ontsluiten. ETL staat voor:|
Extract: data uit een bron ophalen;
Transform: opgehaalde data omzetten volgens bepaalde regels en opzoektabellen of combinaties maken van data uit verschillende bronnen;
Load: de data wegschrijven op een andere plaats.
ETL benoemt dus de diverse processtappen die nodig zijn om gegevens uit verschillende gestructureerde databases te verenigen in één centrale database, het datawarehouse. Bij elke stap zijn een veelheid aan keuzes te maken, afhankelijk van de wensen en de (financiële) mogelijkheden.
Het goed inrichten van de technische infrastructuur vereist veel kennis en kunde. Niet alleen voor degenen die het daadwerkelijk uitvoeren, juist het management moet zich bewust zijn van de consequenties van die keuzes.
Machine learning is onderdeel van artificial intelligence en richt zich op hoe computers taken moeten uitvoeren door te leren van data, in plaats van dat ze er expliciet voor worden geprogrammeerd. Het maakt gebruik van geavanceerde algoritmen door het leren herkennen van patronen uit grote hoeveelheden big data. Bijvoorbeeld productaanbevelingen in webshops, gezichtsherkenningssoftware en de suggesties voor de snelste route bij het navigeren.
Machine learning kent gradaties en verschillende verschijningsvormen van relatief eenvoudig tot zeer complex: supervised machine learning, unsupervised machine learning, reinforcement learning en deep learning.
Supervised machine learning maakt deel uit van machine learing waarbij artificial intelligence door de mens geholpen wordt bij het leren. Bij supervised machine learning is de juiste uitkomst van tevoren bekend en leert de mens het algoritme wat de relaties zijn tussen gegevens. Door het algoritme met steeds meer gegevens te voeden, worden de resultaten wel steeds nauwkeuriger.
Unsupervised machine learning maakt eveneens deel uit van machine learing en artificial intelligence. De juiste uitkomst is niet vooraf bekend evenals welke gegevens daarvoor relevant zijn. Het algoritme wordt gevraagd om dat zelf te onderzoeker door gegevens te clusteren en zo patronen te vinden. Unsupervised machine learning wordt gebruikt als gegevens niet geclassificeerd zijn of om juist nieuwe verbanden en clusters te ontdekken. Denk aan de aanbevelingen die YouTube doet.
Reinforcement learning leert het algoritme een taak uit te voeren door het krijgen van beloningen voor acties die een juiste uitkomst opleveren. Dit soort algoritmes kunnen we gebruiken als er weinig data beschikbaar is. Zo leert het algoritme wat gewenste acties zijn die bijdragen aan het behalen van een bepaald doel. Dit soort algoritmes wordt bij zelfrijdende auto’s gebruikt of voor robots die leren lopen.
Deep learning gebruiken we bij data zoals afbeeldingen, video’s of geluidsopnamen. In vergelijking met de andere vormen van artificial intelligence heeft deep learning veel meer data nodig om verbanden te leggen en patronen te zien, maar het levert dan mogelijk nog accuratere resultaten op.
Deep learning algoritmes bestaan uit verschillende lagen. Elke laag leert steeds nieuwe en complexere eigenschappen van de gegevens. Zo kunnen we bijvoorbeeld een artificial intelligence-systeem maken dat aan de hand van een aantal lagen vogelsoorten leert herkennen.
Door het systeem te voorzien van veel voorbeelden van verschillende vogels te geven, leert het welke kenmerken bij vogels horen. Een laag van het algoritme analyseert bijvoorbeeld de vorm van het object. Door het herkennen van vleugels en een snavel weet het dat het hier om een vogel gaat. Een andere laag analyseert de kleur van de vogel en herkent dat het om een gele vogel gaat. Een volgende laag zou op basis van de combinatie van deze kenmerken ook de specifieke soort vogel kunnen herkennen, bijvoorbeeld een parkiet. Als we het algoritme dan een nieuwe vogel laten zien, die niet in de trainingsset zat, kan het de vogel alsnog herkennen aan de hand van de kenmerken.