Impulse
Synthetische Daten: Innovationspotential und gesellschaftliche Herausforderungen
Authors
Dr. Jörg Drechsler, Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit
Published by
Interface
May 03, 2018
Zusammenfassung
Die Wettbewerbsfähigkeit von Unternehmen hängt zunehmend davon ab, aus Daten neue Produkte, Dienstleistungen oder Geschäftsmodelle zu entwickeln. Datenbasierte Innovation entscheidet auch in öffentlichen Verwaltungen über eine effizientere Ressourcenallokation und damit einhergehenden Kosteneinsparungen. Viele Fälle der Datenverarbeitung und -weitergabe werden von Bürger:innen nur akzeptiert, wenn dafür anonymisierte Daten verwendet werden. Künftig müssen deshalb verstärkt Verfahren gefunden werden, mit welchen personenbeziehbare Daten anonymisiert werden können, aber der Nutzen der Daten für Analysen erhalten bleibt.Dieser Zielkonflikt wird für Staat und Unternehmen aufgrund der exponentiellen Zunahme von Daten (Big Data) eine immer wichtigere Herausforderung.
Diese Herausforderung betrifft aktuell jene Unternehmen, für die Forschungskooperationen, unternehmensinterne und -externe Datenpools oder grenzüberschreitende Datentransfers eine immer größere Rolle spielen.Bisher wurden personenbeziehbare Daten hierfür beispielsweise durch Verrauschung (Zufügung von Zufallswerten) oder Vergröberung verändert. Beides reduziert die Datenqualität.Bei strikter Anwendung der Verfahren sind die entstehenden Daten für viele Anwendungen nicht mehr zu gebrauchen. Andere Methoden, wie die Synthetisierung von Daten, wurden bislang als zu arbeitsaufwändig angesehen. Aufgrund des zunehmenden Einsatzes des maschinellen Lernens sowie der steigenden Rechnerkapazitäten ändert sich dies nun.
Bei der Daten-Synthetisierung handelt es sich um eine Methode, mit der eine „künstliche“ Repräsentation eines Originaldatensatzes erstellt werden kann. Hierzu wird ein Modell entwickelt, das die Originaldaten so gut wie möglich erklärt. Aus diesem Modell werden neue Daten generiert, die wichtige statistische Eigenschaften des Originaldatensatzes erhalten. Der synthetische Datensatz besteht nicht aus Daten natürlicher Personen, sondern aus Daten synthetischer Einheiten. Je nach Anwendung kann die Daten-Synthetisierung mit mathematischen Garantien der Privatheit kombiniert werden.
Diese Methode ist bereits bei Behörden und Instituten mehrerer Länder im Einsatz und wird dazu benutzt, Mikrodatensätze, also Datensätze mit Daten, die auf Individualebene beobachtet werden, zu anonymisieren. Zu den Anwendern gehört unter anderem das U.S. Census Bureau und das deutsche Institut für Arbeitsmarktforschung. So hat das U.S. Census Bureau Mobilitätsströme von Berufspendlern synthetisiert, um diese an Forscher:innen weitergeben zu können. Synthetische Datensätze werden beispielsweise auch in der Privatwirtschaft von Finanzdienstleistern benutzt, um mit Forscher:innen in der Betrugserkennung zusammenzuarbeiten. In der Forschung zu synthetischen Daten sind mittlerweile rasche Fortschritte zu beobachten.
Überraschenderweise lassen sich quasi alle Datenarten synthetisieren, darunter auch Bild- und Textdateien oder soziale Graphen. Die Daten können in jeglichen Volumina produziert werden. Ihre Qualität ist messbar und kann mit der des Originaldatensatzes verglichen werden. Zusammenhänge, Cluster oder andere Muster aus dem Originaldatensatz bleiben erhalten.
Synthetische Daten gelten dann als anonym, wenn keine Personenbeziehbarkeit besteht. In diesem Fall finden die Regelungen der Datenschutz-Grundverordnung (DS-GVO) keine Anwendung. Zusammenführung von Daten oder zweckunbestimmtes Lernen von Zusammenhängen wären dann möglich. Dies wirft rechtliche und ethische Fragen auf: Wichtige Datenschutz-Prinzipien könnten durch Nutzung synthetischer Daten unterlaufen werden. Unternehmen müssten in Datenstrategien festlegen, welche Auswertungen synthetischer Daten sie für ethisch vertretbar halten und welche nicht.
Neben diesen Aspekten stellen sich auch Fragen der Informationssicherheit. So könnten synthetische Daten, die kaum von echten zu unterscheiden sind, dazu eingesetzt werden, Produkte oder Prozesse anzugreifen. Bereits heute können beispielsweise synthetische Bilder auf Basis realer Bilder von Personen im Internet erzeugt werden. Diese könnten in Zukunft benutzt werden, um etwa Authentifizierungsverfahren wie die Gesichtserkennung auszuhebeln.
Grundsätzlich gilt, dass jede Form der Datennutzung ein inhärentes Risiko trägt. Dateninnovation wird nur möglich sein, wenn wir robuste Verfahren finden, dieses Risiko zu reduzieren. Daten-Synthetisierung könnte ein solches Verfahren sein, das dann zur vollen Entfaltung kommt, wenn die wichtigsten rechtlichen und ethischen Fragen geklärt sind.