Home / Allgemein / Differential Privacy: Gedanken über Apple und die Sache mit den Daten

Differential Privacy: Gedanken über Apple und die Sache mit den Daten

Etwas genauer bitte!

OppermannDas Vorgehen eines Verfahrens, welches das Konzept „Differential Privacy“ anwendet, kann aber trotzdem beschrieben werden. Dazu soll angenommen werden, dass es eine vertrauensvolle Person gibt, die die sichere Datenbank D verwaltet. Zunächst werden die erhobenen personalisierten Daten in die Datenbank D eingespielt, wobei jede Reihe in der Datenbank die Daten einer einzelnen Person enthält. Das Ziel ist es, gleichzeitig jede einzelne Reihe zu schützen während eine statistische Auswertung auf die gesamte Datenbank angewandt wird. Dazu wird im Offline- bzw. Überwachungsmodus ein Objekt von der Datenbank erstellt, also eine Art „synthetische Datenbank“.

Diese „synthetische Datenbank“ entsteht durch Verfremden der Originaldaten; dies geschieht nur einmalig und danach nie wieder. Nachdem die synthetische Datenbank erstellt wurde, können die Originaldaten gelöscht werden. Nachfolgend werden verschiedene Abfragen an das nun interaktive Modell gestellt. Die Abfragen werden automatisch angepasst, je nachdem, welches Resultat die Daten aufgrund der vorherigen Abfrage lieferten. Falls alle Abfragen im Voraus bekannt sind, sollte das interaktive Modell die beste Genauigkeit liefern, da es aufgrund der Kenntnis über die auszuführenden Abfragen in der Lage ist, Störungen zu korrelieren.

Ist allerdings im Vornherein nicht klar, welche Abfragen an das Modell gestellt werden sollen, so steht das interaktive Modell vor einer Herausforderung. Schließlich müssen dann alle möglichen Fragen beantwortet werden. Um die Privatsphäre zu beschützen, also die Geheimhaltungsquote ɛ zu erfüllen, lässt sich dann beobachten, dass sich die Genauigkeit verschlechtert je mehr Abfragen ausgeführt werden müssen.

Die Abfragen werden von einem sogenannten Privatsphäre-Mechanismus ausgeführt. Dieser bekommt als Eingabe die Datenbank, einige zufällige Bits und optional eine Reihe von Abfragen. Der Mechanismus erzeugt dann eine Ausgabezeichenfolge. Die Hoffnung ist, dass diese Ausgabezeichenfolge decodiert werden kann um eine relativ genaue Antwort auf die Fragen zu erhalten. Falls im Vornherein keine Abfragen in den Mechanismus übergeben wurden, so ist die Hoffnung, dass die Ausgabezeichenfolge interpretiert werden kann, um zukünftige Abfragen zu beantworten.

Es ist also ersichtlich, dass die Umsetzung von „Differential Privacy“ recht kompliziert sein kann. Im Hinblick auf persönliche Daten kann man aber ziemlich sicher sein, dass keine individuellen Daten nach außen dringen, sofern alles richtig implementiert wurde. Dabei kommt es natürlich auch auf den Schutz der Datenbank vor Löschung der Originaldaten an.

Neben dem „Differential-Privacy-Ansatz“ gibt es natürlich auch einige andere Ansätze, um die Privatsphäre eines Individuums zu beschützen. Gerade hinsichtlich dieser Ansätze gibt es aber durchaus Bedenken. Eine These ist zum Beispiel, dass Daten nicht gleichzeitig völlig anonymisiert und nützlich sein können. Gemeinhin gelten schließlich detailliertere Daten als interessanter und nützlicher. Das führt dazu, dass die Daten mitsamt persönlichen Informationen ausgewertet werden und individuelle Informationen erst im Nachhinein gelöscht werden. Hierbei ist es allerdings möglich, eine individuelle anonyme Person aufgrund der ihr zugeordneten Daten zu bestimmen. Dieses Ergebnis kann wiederum dazu benutzt werden, die anonymisierten Daten mit nicht-anonymisierten Daten abzugleichen. Auf diesem „Umweg“ lassen sich dann Rückschlüsse über die Originaldaten ziehen.

Ein weiterer Kritikpunkt ist die Behauptung, dass sogenannte zusammengefasste Ergebnisse nicht sicher sind. Auch hier können Rekonstruierungsangriffe in solchen Datenbanken, in denen jedes Individuum einen eigenen geheimen Schlüssel besitzt, gestartet werden. Das Ziel ist es, Anfragen an die Datenbank, wie zum Beispiel „Wie viele Personen erfüllen Bedingung P und haben den geheimen Schlüssel 1?“, zu stellen. Durch diese Abfrage wird die Chance erhöht, die geheimen Schlüssel von Individuen zu bestimmen.

„Differential Privacy“ hat hier den Vorteil, dass das Zurückführen auf die Originaldaten nicht möglich ist. Das liegt daran, dass die vorliegenden Daten nicht anonymisiert, sondern wirklich verändert werden, und zwar bevor auch nur eine statistische Auswertung durchgeführt wird. Dadurch lässt sich später mit mathematischer Gewissheit sagen, dass die Daten eine Geheimhaltungsquote von ɛ erfüllen, das heißt, je kleiner ɛ, desto sicherer sind die Daten.

Wie genau die Daten zu Beginn verfremdet werden, lässt sich nicht so leicht beantworten. So hat auch Apple über diesen Punkt bisher noch keine Aussage getroffen. Durch das Hinzufügen eines „Rauschens“, also einer Art Störung, in die Daten, ist es aber in jedem Fall möglich, die Daten zu verfremden und gleichzeitig die gewünschten Eigenschaften zu behalten. Die gestörten Daten werden dann in neuen Einträgen gespeichert. Um den Voraussetzungen für „Differential Privacy“ zu genügen, müssen die gestörten und die Originaldaten aber ununterscheidbar voneinander sein.

Von Apple ist wohl zu erwarten, dass die Verfremdung der Daten und auch die Umsetzung eines Algorithmus, der die Privatsphäre bewahrt, mit viel Aufwand und konsequent implementiert wird. Jedenfalls zunächst. So lange bis der Hunger, die Gier noch größer wird.

Sollten andere Unternehmen dem Beispiel folgen?

Theoretisch ist es aber auch für andere große oder kleine Unternehmen möglich, statistische Auswertungen unter Beachtung von „Differential Privacy“ durchzuführen. Die Theorie hinter diesem Konzept ist für jeden zugänglich und es existiert bereits eine Vielzahl konkreter Algorithmen. Diese beziehen sich zwar auf spezielle Fallstudien, Anpassungen sind aber gleichwohl möglich. Natürlich sollten die oben beschriebenen Schritte beachtet werden. Bei dem Verfremden der Daten kann dabei auch auf relativ einfache Ansätze zurückgegriffen werden. Der einfachste Ansatz ist dabei, die Anzahl der verschiedenen Datensätze zu bestimmen und sie mithilfe der Laplace-Verteilung in Verbindung mit dem Parameter 1/ɛ zu verschieben. Aufgrund der Eigenschaften der Laplace-Verteilung sind dann auch die Eigenschaften von „Differential Privacy“ mit ɛ-Privatsphäre gewährleistet. Ein Algorithmus der die statistischen Auswertungen durchführt, müsste schließlich noch an das jeweilige Problem angepasst werden. Durch das konsequenten Einhalten der Voraussetzungen lässt sich somit die Privatsphäre von Nutzerdaten bewahren.

Andererseits sollte aber auch beachtet werden, dass der Aufwand zur Implementierung eines solchen Verfahrens groß ist. Das Verfahren liefert zwar gute Ergebnisse und schützt zudem noch die Privatsphäre, im Allgemeinen sollte die Anzahl der Datensätze aber so umfangreich sein, dass auch eine statistische Aussagekraft gewährleistet werden kann. Des Weiteren werden eine Menge Ressourcen benötigt, um das Verfahren zu implementieren. Deshalb sollte der zu erwartende Nutzen stets größer sein als die Kosten für die Entwicklung oder einen Dienstleister.

Insgesamt lässt sich also zusammenfassen, dass es durchaus einige Ansätze gibt, um persönliche Nutzerdaten geheim zu halten. Mit dem „Differential-Privacy-Prinzip“ kann genau berechnet werden, wie sicher ein Algorithmus ist. Das ist momentan der große Vorteil gegenüber anderen Ansätzen, bei denen sich beispielsweise anonymisierte Daten auf die Ursprungsdaten zurückführen lassen und somit keine Sicherheit gewährleistet ist. Ein Algorithmus, der das „Differential-Privacy-Prinzip“ umsetzt, ist die bessere Wahl. Dennoch sollte zunächst abgewogen werden, ob sich der Aufwand zur Umsetzung eines solchen Verfahrens lohnt.

Was bleibt: Was Apple hier abzieht, ist gutes Marketing. Andere Unternehmen sollten dem Beispiel folgen und nicht nur auf Algorithmen setzen, sondern auch auf Definitionen. Ein grundsätzlich gut genordeter moralischer Kompass kann auch nicht schaden.

Share

Leave a Reply

Your email address will not be published. Required fields are marked *

*