Teknologiske Fremskridt: Sikring af Privatliv i Datadrevne Tider

af Sebastian Wrede - Software Engineer
| Læsetid: minutter

Beskyttelse af data har været et omtalt emne de seneste år, især efter udrulningen af GDPR. Lovgivningen og andre barrierer kan i nogle tilfælde besværliggøre eller ligefrem forhindre brugen af visse data, selvom brugen af disse data kan skabe værdi for både virksomheden og det resterende samfund.

En række teknologier er blevet udviklet til arbejdet med den type af data. Teknologierne går på dansk under betegnelsen ”Privatlivsfremmende Teknologier”, på engelsk ”Privacy-Enhancing Technologies” (PETs). Det overordnede mål for disse teknologier er at dele så lidt privat information som muligt under arbejdet med data. Graden af acceptabel datadeling afhænger af den konkrete use case, så en række PETs er blevet opfundet og de er hver især brugbare til forskellige formål.

Vi bringer her en oversigt over de mest anvendte PETs, men først skal vi se lidt nærmere på, hvad vi mener med ”anvendelse af data” og hvad deling af ”privat information” dækker over.

Anvendelse af data – Analyse & AI

Data gemmes ikke uden grund. Det er ofte tæt knyttet til en bestemt applikation og ofte har man haft en bestemt anvendelse i tankerne, da man besluttede at gemme det. Mange virksomheder har dog fået øjnene op for, hvor meget værdi der ligger gemt i deres databaser. Data Scientists kan skabe ny indsigt gennem analyse af data, dataingeniører kan effektivt gøre data tilgængeligt i alle dele af organisationen, og med den seneste opblomstring af kunstig intelligens, kan de fleste virksomheder få gavn af deres data på helt nye måder. Når vi siger ”anvendelse af data” i dette indlæg, så mener vi primært analyse af data og træning af kunstig intelligens med brug af data.

Deling af information

Træning af kunstig intelligens kræver store mængder af data. De nødvendige mængder er sommetider ikke mulige at samle inden for den samme virksomhed. Det kan også være tilfældet, at man vil analysere en proces, der går på tværs af flere virksomheder, så man internt i virksomheden kun har adgang til en andel af den samlede data. Man kan da blive nødt til at gå sammen med de andre virksomheder, om at lave analysen eller træne den kunstige intelligens. Dette skaber et problem, hvis ens data ikke må deles. Et alternativ er da at give den nødvendige information fra data videre, uden at dele den egentlige data.

Princippet om at dele information uden at dele den underlæggende data er kendt af de fleste, uden at de nødvendigvis har tænkt over det. Et eksempel er når Danmarks Statistik udgiver rapporter med statistik om danskerne, for eksempel befolkningens civilstand fordelt over område, alder og køn. Da får man noget information om nogle personer, uden at få noget at vide om en bestemt person. Man opsummerer ved at dele et tal, der repræsenterer flere mennesker og derved bliver det acceptabelt at dele. Man har på den måde delt noget information fra data uden at dele den egentlige data.

Træning af kunstig intelligens

Det samme princip kan bruges når man træner modeller til kunstig intelligens. Modellen består af vægte, som opsummerer den data, modellen blev trænet på. På den måde kan man sige, at man har trukket den essentielle information fra data og gemt informationen i modellen. Hvis man så deler den model med andre, så deler man samtidig information fra den oprindelige data uden at dele den oprindelige data.

Målet er så at dele information nok til at kunne udføre analysen/træne modellen uden at dele den information, som gerne skulle holdes privat, hvilket vi kan kalde privat information. Privat information kan bestemmes ud fra forskellige kriterier, men et typisk kriterie er, at det ikke skal være muligt at identificere et individ.



PETs

Nu er vi så klar til at se lidt nærmere på, hvilke teknologier man kan bruge. Teknologierne forsøger at løse forskellige problemstillinger, så det er vigtigt at man har god forståelse for sin use case inden man beslutter sig for en bestemt teknologi.

Differential Privacy (DP)

På en måde er DP mere en definition end en teknologi. Udgangspunktet er at beskytte individer i et datasæt ved at tilføje støj til de resultater, der bliver beregnet på datasættet. Målet er, at man ikke skal kunne identificere om et givent individ er i datasættet eller ej, selvom man sammenligner et resultat med individet og et resultat uden individet. Størrelsen af støjen skal balanceres, da en stor støj vil give unøjagtige resultater og en lille støj vil afsløre mere af den underliggende data. Der findes forskellige metoder til at tilføje støj og hvordan støjen skal tilføjes når man kombinerer flere forskellige beregninger over det samme data.

Federated Learning (FL)

FL omhandler primært træningen af maskinlæringsmodeller og bliver allerede anvendt i flere produkter, for eksempel forudsigelsen af næste ord på tastaturet på Android smartphones. Den grundlæggende idé går ud på at sende modellen til det sted, hvor data befinder sig, i stedet for at sende data til modellen. På den måde undgår man at dele data direkte og man deler i stedet opdateringer til vægtene i modellen. Som tidligere nævnt, så indeholder vægtene i sig selv noget information om den oprindelige data, så selvom man kun deler vægtene, så deler man stadigvæk noget information om den oprindelige data. FL gør det muligt for virksomheder at træne en model i fællesskab, hvor de i sidste ende alle sammen får adgang til modellen, uden at dele deres oprindelige data i processen.

Syntetisk Data

Grundtanken er at trække den væsentligste information ud af datasættet og generere et nyt kunstigt datasæt baseret på det oprindelige. Der findes mange metoder til at gøre dette, men fælles for dem alle er, at de skal sørge for at trække nok information ud af den oprindelige data til at datasættet er anvendeligt, men ikke så meget at det syntetiske datasæt er identisk med det oprindelige. På den måde kan man stå i samme dilemma som DP, hvor man må opveje unøjagtighed mod databeskyttelse. Syntetisk data er også forsøgt kombineret med FL, men nogle forskere har sat spørgsmålstegn ved, hvorvidt det beskytter data bedre.

Homomorphic Encryption (HE)

HE er en kryptografisk metode, der gør det muligt at lave beregninger direkte på krypteret data. Det betyder, at man kan kryptere sin data, sende det videre til en tredjepart og få et krypteret resultat sendt tilbage. Tredjeparten har hverken set den ukrypterede data eller resultatet. Dette muliggør beregninger på krypteret data i et Cloud-system, men det er også muligt at kombinere det med FL, så opdateringerne til modellen er krypteret. Den største ulempe ved HE er, at det kræver mange ressourcer at lave beregninger på krypteret data, så beregningerne er oftest mere end 1.000 gange langsommere.

Secure Multiparty Computation (SMPC)

SMPC bruger flere deltagere til at lave en fælles beregning på deres data uden at nogen af deltagerne ser de andres data. Der findes mange protokoller for at gøre dette. Et typisk eksempel er at deltagerne deler en hemmelighed imellem sig, som så indgår i en samlet beregning, der dermed skjuler deres egentlige input. Det kunne være tilfældet hvis tre deltagere skal beregne en sum af tre tal, de hver især er i besiddelse af, så kan hver deltager dele deres tal i tre dele og videresende til de andre. Alle delene kan så summeres og derved har alle deltagere adgang til resultatet uden at kende til de andres værdi. Ulempen ved SMPC er, udover at det ligesom HE giver langsommere beregninger, at alle protokoller har en smertegrænse for, hvor mange ondsindede deltagere der skal til, før de kan afsløre en af de andres beskyttede data eller før de kan få beregningen til at give et forkert resultat.


Er PET teknologien klar?

Vi har her blot givet et overblik over teknologierne. Der findes mange kilder, der går i dybden med de forskellige teknologier, så man kan få et mere fyldestgørende indblik i hvad de kan bruges til og hvordan de fungerer. PETs har varierende grad af modenhed. Nogle af teknologierne er allerede i brug, andre er stadigvæk i en mere eksperimenterende fase. Vi bevæger os mod en tid, hvor flere værktøjer til at implementere PETs opstår og flere platforme indarbejder PETs så det bliver mere tilgængeligt og mindre ressourcekrævende at anvende. 

Det er vigtigt at holde sig opdateret på denne udvikling, så man er klar over hvad mulighederne er. Hvis man ikke er ekspert inden for emnerne, så kan det være svært at gennemskue konsekvenserne ved de forskellige valg og det er derfor en stor hjælp, hvis man holder fokus på at identificere use cases. Når man har fundet nogle relevante use cases, så kan man i samarbejde med specialister inden for området undersøge nærmere hvilken konkret PET, der bør anvendes, samt hvordan det kan implementeres.

Lad os hjælpe dig med din digitalisering

Kontakt os, hvis vi kan inspirere eller udfordre dig i din automatiseringsrejse. Vi hjælper med at kortlægge og effektivisere forretningsprocesser eller automatisere alt fra manuelle opgaver til komplekse formularer ved hjælp af data-drevne indsigter.

Har du lyst til at høre mere om PETs, Machine Learning eller søger sparring til hvordan det kan tænkes ind i jeres virksomhed, så kontakt os på +45 61 77 70 70 eller på mail: rasmus.halvor@soprasteria.com

 Kontakt os

 

Search