Veel partijen, of het nou een accountant is of een zorginstelling, werken met gevoelige data. Accountants hebben, bijvoorbeeld via boekingen van uitval/zorgkosten van personeel allerhande gevoelige zaken in de boeken staan. Zorginstellingen idem, zelfs als het (dus) financiële data betreft. Hoe ga je hier als partij mee om, zeker als je overweegt om een centraal datawarehouse op te zetten?
Door Harmen, CTO & senior data scientist bij Datalab
Er zijn allerlei verschillende technische oplossingen die je kunt inzetten om data veilig te houden. De voornaamste op een rij:
Anonimisering: je haalt alle referenties die gebruikt kunnen worden om een persoon direct of indirect te herleiden er uit. Dit is veel lastiger dan het lijkt: denk aan combinaties van gegevens die individueel niet herleidbaar zijn maar in combinatie wel. Opleiding + geboortejaar + geboorteplaats is al heel snel een unieke combinatie, terwijl de gegevens op zich niet zo spannend zijn. Je hebt tooling waarmee je kunt meten of je data echt goed anoniem is. Die tools meten hoe uniek combinaties van ongevoelige persoonsgegevens zijn: uniek = gevaarlijk want wellicht te herleiden.
Pseudonimisering: een zeer veel gebruikte techniek in de zorgsector. Je haalt alle persoonsgegevens weg en vervangt ze door een unieke code. Op die manier kun je personen volgen in de dataset zónder dat je weet over wie het gaat. Je kunt daarbij kiezen voor reversible pseudonimisering, waarbij je ergens een lijst hebt de gevoelige gegevens én de unieke code, of je kiest voor irreversible pseudonimisering. Dan kun je nooit meer de gegevens van de persoon terughalen maar je kunt ze wél volgen over verschillende datasets (verleden, heden, toekomst; externe data, etc.). Als je kiest voor reversible pseudonimisering, kun je dit op verschillende manieren inrichten: je beheert zelf de lijst met codes en persoonsgegevens, maar zorgt met strenge toegangsbeveiliging ervoor dat er (vrijwel) niemand bij kan. Als alternatief kun je werken met zogenaamde trusted third parties, TTPs. Deze partijen beheren de lijsten met gegevens. Dit komt veel voor in sectoren waarbij er tussen bedrijven die elkaars data niet mogen inzien, maar wél gegevens willen met elkaar delen. Een onafhankelijke partij beheert de lijsten met gevoelige gegevens en persoonscodes en stelt deze niet beschikbaar aan aan de leveranciers van de data. Dit komt veel voor in medisch onderzoek en binnen de verzekeringsindustrie.
Pseudonimisering en anonimisering zijn belangrijke technieken, essentiëler echter is een veilige inrichting van de plek waar de data opgeslagen is en waar deze geanalyseerd wordt. Daarbij is het relevant om onderscheid te maken tussen drie zaken:
- data-invoer
- data-opslag
- data-analyse
De data-invoerkant is zo in te regelen, dat alleen nieuwe data toegevoegd kan worden en bestaande data niet kan uitlekken via dergelijke tools. De belangrijkste eis is vooral dat het aangeleverd wordt via beveiligde kanalen. Bij Datalab werken we bijvoorbeeld met Stepping Stone-servers die de schakel vormen tussen de beveiligde bedrijfsomgeving waar de de brondata staat en de beveiligde data-opslagomgeving (het datawarehouse).
Voor de data-opslaglaag zijn er allerlei technieken beschikbaar om data veilig te houden: encryptie van de opgeslagen data, ook van de back-ups, is er een van. Belangrijker nog zijn de verbindingen tussen het datawarehouse en de analyseomgeving. Daarbij kies voor je het ‘least privilege’-principe: je maakt per analyse een andere verbinding, waarbij enkel de data die voor deze analyse noodzakelijk is, beschikbaar wordt gesteld. Uiteraard via beveiligde verbindingen.
Als laatste heb je de de analyseomgeving, waarbij toegangsbeveiliging cruciaal is. Bovendien worden er vaak ‘halffabricaten’ opgeslagen: datasets waar de analist mee aan het werk is. Ook hier geldt dat encryptie van die data een belangrijke beveiliging biedt, maar niet zaligmakend is. Bij Datalab richten we standaard een analyseomgeving in die niet op de laptop van de analist staat, maar dicht in de buurt van het datawarehouse draait. Via beveiligde verbindingen worden de analyses zo uitgevoerd, waarbij de data nooit via het internet verstuurd wordt én de data nooit op de laptop van de analist belandt. Als de laptop bijvoorbeeld verloren raakt in de trein of gestolen wordt, lekt er dus nooit data uit. Tegelijkertijd is het wel essentieel dat de analist zijn of haar werk goed kan uitvoeren en dus niet gehinderd wordt door tooling die (vanwege de beveiliging) net niet kan wat de analist wil doen. Ook wil je de standaardtools opleveren waardoor je analist in een vertrouwde omgeving kan werken.