Machine learning en privacybescherming: gaan die wel samen?

We worden tegenwoordig voortdurend onderworpen aan algoritmen die gebruikmaken van machine learning, vaak zonder dat we het zelf weten. Denk aan de Captcha’s op internetpagina’s en aan bedrijven als Spotify en Netflix die suggesties doen op basis van de muziek en series die je eerder hebt gestreamd. Afgezien van de ethische bezwaren die we kunnen hebben tegen dit gebruik van machine learning, is er nog een probleem: onze privacy. De Autoriteit Persoonsgegevens houdt daarom bedrijven in de gaten die veel met machine learning algoritmes werken. Onlangs werd een nieuwe vorm van machine learning gepresenteerd die privacyvriendelijker zou zijn omdat er minder data nodig zijn om het algoritme te trainen. Deze vorm, ‘federated learning’ genoemd, is ontwikkeld door Google en wordt geprezen door informatici om zijn gebruik in de praktijk. In deze blog gaan we daarom in op federated learning en beoordelen we of het gebruik hiervan onze privacy ten goede komt.

Wat is federated learning?

Federated learning is een speciale vorm van machine learning. Machine learning is een vorm van kunstmatige intelligentie die softwaretoepassingen in staat stelt resultaten nauwkeuriger te voorspellen zonder dat zij daarvoor expliciet zijn geprogrammeerd. Machine learning algoritmen gebruiken historische data om nieuwe output-waarden te voorspellen. Waar de meeste andere algoritmen voor machine learning gebruikmaken van een gecentraliseerde database waarin alle informatie wordt opgeslagen en verwerkt, is dat bij federated learning niet het geval. Bij federated learning blijven de gegevens die nodig zijn om het algoritme te trainen, op het apparaat staan waar de gegevens zijn gecreëerd. Bij federated learning komt het algoritme voor machine learning naar het apparaat. Het model wordt als het ware geïnstalleerd op alle ‘lokale’ apparaten. Bij een federated learning algoritme dat wordt getraind om bepaalde woordsuggesties in zoekmachines te herkennen zal het model worden geïnstalleerd op bijvoorbeeld mobiele telefoons op basis van instemming van de gebruikers van deze mobiele telefoons. Het model wordt dan getraind op basis van het gebruik van het toetsenbord van de telefoon in zoekmachines. Wanneer het algoritme op het lokale apparaat is getraind, worden de resultaten van de training van de woordsuggesties gedeeld met de gecentraliseerde database. Er wordt dus geen privacygevoelige informatie gedeeld met de organisatie die de training van het model uitvoert.

In het kort verloopt het proces als volgt. Eerst ontvangen de lokale apparaten vanuit de centrale server een kopie van het gecentraliseerde model, waarop het trainingsprogramma wordt geïnstalleerd. Vervolgens wordt het model bijgewerkt met de gegevens die op het apparaat beschikbaar zijn. Als derde stap sturen de lokale apparaten het bijgewerkte model terug naar de centrale server. De centrale server neemt dan alle bijgewerkte modellen van alle lokale toestellen en werkt het centrale model bij. Hierna begint het proces weer opnieuw. Op deze manier wordt alleen het bijgewerkte model met de nieuwe parameters uitgewisseld, zodat er geen overbodige gegevens met de centrale server worden gedeeld.

Komt federated learning onze privacy ten goede?

De impact van federated learning op onze privacy is te behandelen aan de hand van de beginselen van de AVG. Zo kan federated learning de naleving van het in artikel 5, lid 1, onder c), van de AVG vervatte beginsel van gegevensminimalisatie eenvoudiger maken.

Het beginsel van gegevensminimalisatie in de zin van de AVG schrijft voor dat persoonsgegevens toereikend, terzake dienend en beperkt moeten zijn tot hetgeen noodzakelijk is in verband met de doeleinden waarvoor zij worden verwerkt.

Bij het gebruik van federated learning betekent dit dat de gebruiker van het model alleen de persoonsgegevens mag gebruiken die strikt noodzakelijk zijn om het model naar behoren te trainen. Wanneer de trainingsdata persoonsgegevens zijn in de zin van de AVG, valt het voordeel van federated learning meteen op. Er worden namelijk geen trainingsdata naar een centrale server gestuurd om daar verwerkt te worden, waardoor niet onnodig data worden gedupliceerd. Doordat duplicatie en centralisatie worden vermeden, kan federated learning ook helpen het risico te beperken dat deze gegevens worden hergebruikt voor een doel dat onverenigbaar is met het oorspronkelijke doel van de verzameling. Hierdoor zorgt federated learning ook voor een betere naleving van het beginsel van doelbinding zoals beschreven in artikel 5, lid 1, onder b) van de GDPR. Dit beginsel vereist dat persoonsgegevens voor welbepaalde, uitdrukkelijk omschreven en gerechtvaardigde doeleinden worden verkregen en vervolgens niet worden verwerkt op een wijze die onverenigbaar is met die doeleinden. Federated learning zorgt daarmee op twee belangrijke punten van de AVG voor een belangrijke vooruitgang ten opzichte van de meer traditionele machine learning algoritmen.

Conclusie

Federated learning is een vorm van machine learning. Waar andere vormen van machine learning gebruikmaken van een systeem waarin gegevens centraal worden verwerkt en opgeslagen, werkt federated learning anders. Bij federated learning wordt het model lokaal op de apparaten getraind, en worden alleen de getrainde parameters gedeeld met de centrale server. Er wordt dus geen andere informatie met de centrale server gedeeld dan strikt noodzakelijk is voor het model en er worden geen kopieën van gegevens centraal opgeslagen. De informatie over de gebruiker van het lokale apparaat verlaat het apparaat dus niet. Federated learning voldoet aan de beginselen van gegevensminimalisatie en doelbinding uit de AVG. Federated learning is daarmee een belangrijke vooruitgang ter bescherming van onze privacy.