Möchte Ihr Unternehmen Daten sammeln und analysieren, um Trends zu untersuchen, ohne die PrivatsphĂ€re zu beeintrĂ€chtigen? Oder verwenden Sie bereits verschiedene Tools, um es zu bewahren, und möchten Ihr Wissen vertiefen oder Ihre Erfahrungen teilen? In jedem Fall ist dieses Material fĂŒr Sie.
Was hat uns dazu veranlasst, diese Artikelserie zu starten? Das NIST (Nationales Institut fĂŒr Standards und Technologie) hat im vergangenen Jahr den Privacy Engineering Collaboration Space gestartet- eine Plattform fĂŒr die Zusammenarbeit, die Open-Source-Tools sowie Lösungen und Beschreibungen von Prozessen enthĂ€lt, die fĂŒr die Gestaltung der Vertraulichkeit von Systemen und das Risikomanagement erforderlich sind. Als Moderatoren dieses Bereichs helfen wir NIST dabei, verfĂŒgbare Tools zum Schutz der PrivatsphĂ€re im Bereich der Anonymisierung zu sammeln. NIST veröffentlichte auĂerdem das Privacy Framework: Ein Tool zur Verbesserung der PrivatsphĂ€re durch Enterprise Risk Management und einen Aktionsplan , in dem eine Reihe von Datenschutzbedenken, einschlieĂlich der Anonymisierung, dargelegt werden. Jetzt möchten wir Collaboration Space dabei unterstĂŒtzen, die im Plan fĂŒr die Anonymisierung (Deidentifizierung) festgelegten Ziele zu erreichen. Helfen Sie NIST letztendlich dabei, diese Reihe von Veröffentlichungen zu einem ausfĂŒhrlicheren Leitfaden fĂŒr differenzierte PrivatsphĂ€re zu entwickeln.
Jeder Artikel beginnt mit grundlegenden Konzepten und Anwendungsbeispielen, damit Fachleute - wie GeschĂ€ftsprozessverantwortliche oder Datenschutzbeauftragte - genug lernen, um gefĂ€hrlich zu werden (nur ein Scherz). Nachdem wir die Grundlagen ĂŒberprĂŒft haben, werden wir die verfĂŒgbaren Tools und die darin verwendeten AnsĂ€tze analysieren, die bereits fĂŒr diejenigen nĂŒtzlich sind, die an bestimmten Implementierungen arbeiten.
Wir beginnen unseren ersten Artikel mit der Beschreibung der SchlĂŒsselkonzepte und Konzepte der differenzierten PrivatsphĂ€re, die wir in den folgenden Artikeln verwenden werden.
Formulierung des Problems
Wie können Sie Bevölkerungsdaten untersuchen, ohne bestimmte Bevölkerungsmitglieder zu beeinflussen? Versuchen wir zwei Fragen zu beantworten:
- Wie viele Menschen leben in Vermont?
- Wie viele Leute namens Joe Near leben in Vermont?
Die erste Frage betrifft die Eigenschaften der gesamten Bevölkerung und die zweite enthĂ€lt Informationen ĂŒber eine bestimmte Person. Wir mĂŒssen in der Lage sein, Trends fĂŒr die gesamte Bevölkerung herauszufinden, ohne Informationen ĂŒber eine bestimmte Person zuzulassen.
Aber wie können wir die Frage beantworten, wie viele Menschen in Vermont leben? - was wir weiter "Anfrage" nennen werden - ohne die zweite Frage zu beantworten "Wie viele Menschen mit dem Namen Joe Nier leben in Vermont?" Die hĂ€ufigste Lösung ist die Deidentifizierung (oder Anonymisierung), bei der alle identifizierenden Informationen aus dem Datensatz entfernt werden (im Folgenden glauben wir, dass unser Datensatz Informationen zu bestimmten Personen enthĂ€lt). Ein anderer Ansatz besteht darin, aggregierte Abfragen beispielsweise nur mit einem Durchschnitt zuzulassen. Leider wissen wir jetzt bereits, dass keiner der AnsĂ€tze den notwendigen Schutz der PrivatsphĂ€re bietet. Anonymisierte Daten sind das Ziel von Angriffen, die Verbindungen zu anderen Datenbanken herstellen. Die Aggregation schĂŒtzt die PrivatsphĂ€re nur, wenn die GröĂe der Stichprobengruppe gleich istgroĂ genug. Aber auch in solchen FĂ€llen sind erfolgreiche Angriffe möglich [1, 2, 3, 4].
Differenzielle PrivatsphÀre
Differenzielle PrivatsphĂ€re [5, 6] ist eine mathematische Definition des Konzepts âPrivatsphĂ€re habenâ. Es ist kein spezifischer Prozess, sondern eine Eigenschaft, die ein Prozess besitzen kann. Sie können beispielsweise berechnen (beweisen), dass ein bestimmter Prozess den GrundsĂ€tzen der unterschiedlichen PrivatsphĂ€re entspricht.
Einfach ausgedrĂŒckt, fĂŒr jede Person, deren Daten sich in dem zu analysierenden Datensatz befinden, stellt der differenzielle Datenschutz sicher, dass das Ergebnis der differenziellen Datenschutzanalyse praktisch nicht zu unterscheiden ist, ob sich Ihre Daten im Datensatz befinden oder nicht . Die differenzierte Datenschutzanalyse wird hĂ€ufig als Mechanismus bezeichnet , und wir werden sie als Mechanismus bezeichnen...
Abbildung 1: Schematische Darstellung der unterschiedlichen PrivatsphÀre.
Das Prinzip der unterschiedlichen PrivatsphĂ€re ist in Abbildung 1 dargestellt. Antwort A wird ohne Joes Daten berechnet und Antwort B mit seinen Daten. Und es wird argumentiert, dass beide Antworten nicht zu unterscheiden sind. Das heiĂt, wer sich die Ergebnisse ansieht, kann nicht sagen, in welchem ââFall Joes Daten verwendet wurden und in welchem âânicht.
Wir steuern das erforderliche Maà an Datenschutz, indem wir den Datenschutzparameter Δ Àndern, der auch als Datenschutzverlust oder Datenschutzbudget bezeichnet wird. Je kleiner der Δ-Wert ist, desto weniger unterscheidbar sind die Ergebnisse und desto sicherer sind die Daten von Personen.
Abbildung 2: Formale Definition der unterschiedlichen PrivatsphÀre.
Wir können hĂ€ufig auf eine Anfrage auf unterschiedliche Art und Weise antworten, indem wir der Antwort zufĂ€lliges Rauschen hinzufĂŒgen. Die Schwierigkeit besteht darin, genau zu bestimmen, wo und wie viel LĂ€rm hinzugefĂŒgt werden soll. Einer der beliebtesten GerĂ€uschgerĂ€uschmechanismen ist der Laplace-Mechanismus [5, 7].
Erhöhte Datenschutzanforderungen erfordern mehr LĂ€rm, um den spezifischen Epsilon-Wert der differenziellen PrivatsphĂ€re zu erfĂŒllen. Und dieses zusĂ€tzliche Rauschen kann die NĂŒtzlichkeit der erhaltenen Ergebnisse verringern. In zukĂŒnftigen Artikeln werden wir detaillierter auf den Datenschutz und den Kompromiss zwischen Datenschutz und NĂŒtzlichkeit eingehen.
Vorteile der unterschiedlichen PrivatsphÀre
Die unterschiedliche PrivatsphĂ€re hat gegenĂŒber frĂŒheren Techniken mehrere wichtige Vorteile.
- , , ( ) .
- , .
- : , . , . , .
Aufgrund dieser Vorteile ist die Anwendung differenzierter Datenschutzmethoden in der Praxis einigen anderen Methoden vorzuziehen. Die Kehrseite der Medaille ist, dass diese Methodik ziemlich neu ist und es nicht einfach ist, bewĂ€hrte Werkzeuge, Standards und bewĂ€hrte AnsĂ€tze auĂerhalb der akademischen Forschungsgemeinschaft zu finden. Wir glauben jedoch, dass sich die Situation in naher Zukunft aufgrund der wachsenden Nachfrage nach zuverlĂ€ssigen und einfachen Lösungen zur Wahrung des Datenschutzes verbessern wird.
Was weiter?
Abonnieren Sie unseren Blog, und in KĂŒrze werden wir die Ăbersetzung des nĂ€chsten Artikels veröffentlichen, in dem die Bedrohungsmodelle erlĂ€utert werden, die beim Aufbau von Systemen fĂŒr differenzierte PrivatsphĂ€re berĂŒcksichtigt werden mĂŒssen, sowie die Unterschiede zwischen zentralen und lokalen Modellen fĂŒr differenzielle PrivatsphĂ€re.
Quellen
[1] Garfinkel, Simson, John M. Abowd und Christian Martindale. "Grundlegendes zu Datenbankrekonstruktionsangriffen auf öffentliche Daten." Mitteilungen des ACM 62.3 (2019): 46-53.
[2] Gadotti, Andrea et al. "Wenn das Signal im Rauschen ist: Ausnutzen des klebrigen Rauschens von Diffix." 28. USENIX-Sicherheitssymposium (USENIX-Sicherheit 19). 2019.
[3] Dinur, Irit und Kobbi Nissim. "Offenlegung von Informationen unter Wahrung der PrivatsphÀre." VortrÀge des zweiundzwanzigsten ACM SIGMOD-SIGACT-SIGART-Symposiums zu Prinzipien von Datenbanksystemen. 2003.
[4] Sweeney, Latanya. "Einfache demografische Daten identifizieren Personen hÀufig eindeutig." Health (San Francisco) 671 (2000): 1-34.
[5] Dwork, Cynthia et al. "Rauschen auf Empfindlichkeit bei der Analyse privater Daten kalibrieren." Konferenz zur Theorie der Kryptographie. Springer, Berlin, Heidelberg, 2006.
[6] Wood, Alexandra, Micah Altman, Aaron Bembenek, Mark Bun, Marco Gaboardi, James Honaker, Kobbi Nissim, David R. O'Brien, Thomas Steinke und Salil Vadhan. « Differential Privacy: Eine EinfĂŒhrung fĂŒr ein nicht technisches Publikum. »Vand. J. Ent. & Technik. L. 21 (2018): 209.
[7] Dwork, Cynthia und Aaron Roth. "Die algorithmischen Grundlagen der unterschiedlichen PrivatsphÀre." Grundlagen und Trends der Theoretischen Informatik 9, Nr. 3-4 (2014): 211 & ndash; 407.