Einführung
Auf maschinellem Lernen basierende Dateiklassifizierer zur Verhinderung von Datenverlust (Data Loss Prevention, DLP) bieten eine schnelle und effektive Möglichkeit, vertrauliche Daten in Echtzeit zu identifizieren und Unternehmen so detaillierte DLP-Richtlinienkontrollen in Echtzeit bereitzustellen. Netskope Advanced DLP bietet eine große Auswahl an vordefinierten Dateiklassifizierern, beispielsweise für Reisepässe, Führerscheine, Schecks, Zahlungskarten, Screenshots, Quellcode, Steuerformulare und Geschäftsvereinbarungen. Obwohl diese vordefinierten Klassifikatoren an sich bemerkenswert sind, sind sie angesichts der enormen Vielfalt sensibler Daten in unterschiedlichen Branchen und Organisationen zwangsläufig eher allgemein gehalten. Um unternehmens- oder branchenspezifische Dokumente wie Ausweisdokumente, Personalakten oder Bilder kritischer Infrastrukturen besser berücksichtigen zu können, hat Netskope einen neuartigen patentierten Ansatz entwickelt, der es Kunden ermöglicht, ihre eigenen Klassifikatoren zu trainieren und gleichzeitig den Datenschutz zu wahren. Dank dieser Innovation können sich Unternehmen auf den Schutz ihrer wichtigsten Informationen konzentrieren.
Dieser Trainingsprozess, bekannt als Train Your Own Classifier (TYOC), ist auf Effizienz ausgelegt und erfordert weder eine große Menge gekennzeichneter Daten noch das zeitaufwändige Training eines überwachten Klassifizierungsmodells. Diese Fähigkeit wird durch die Verwendung hochmoderner kontrastiver Lerntechniken ermöglicht. Kunden können eine kleine Menge an Beispielbildern (ca. 20–30) in die Netskope Security Cloud hochladen. Diese Beispiele werden dann verwendet, um wichtige Attribute zu extrahieren und mithilfe der Machine-Learning-Engine von Netskope einen angepassten Klassifikator zu trainieren.
Sobald der benutzerdefinierte Klassifikator trainiert ist, wird er im eigenen Mandanten des Kunden bereitgestellt, um vertrauliche Informationen überall dort zu erkennen, wo Netskope DLP verwendet wird, einschließlich E-Mail und Endpoint DLP. Wichtig ist, dass die Originalproben nicht aufbewahrt werden und der trainierte Klassifikator nicht an andere Kunden weitergegeben wird. Dadurch wird der Schutz der vertraulichen Daten des Kunden während des gesamten Prozesses gewährleistet.
Bildähnlichkeit und kontrastives Lernen
TYOC löst ein Problem der Bildähnlichkeit durch den Einsatz von Techniken des kontrastiven Lernens.
Die Bildähnlichkeit befasst sich mit der Herausforderung, Bilder zu identifizieren, die einem Referenzbild ähneln, selbst wenn es geringfügige Unterschiede in Aspekten wie Farbe, Ausrichtung, Zuschnitt und anderen Merkmalen gibt. Dieser Prozess kann durch den Einsatz moderner kontrastiver Lerntechniken wirksam gemanagt werden.
Kontrastives Lernen zielt darauf ab, durch die Gegenüberstellung von Paaren ähnlicher (positiver) und unähnlicher (negativer) Instanzen aussagekräftige Darstellungen zu extrahieren. Es basiert auf dem Konzept, dass ähnliche Instanzen in einem gelernten Einbettungsraum näher beieinander positioniert werden sollten, während unähnliche Instanzen weiter voneinander entfernt platziert werden sollten. Beim kontrastiven Lernen werden Bildmodelle durch unüberwachtes Lernen trainiert, indem jedes Bild auf eine Weise erweitert wird, die seinen semantischen Inhalt bewahrt. Zu dieser Erweiterung gehören Vorgänge wie zufällige Drehungen, Farbverzerrungen und Zuschnitte, wodurch sichergestellt wird, dass der zugeschnittene Bereich ein wesentlicher Teil des Originalbildes bleibt. Diese erweiterten Beispiele werden zum Trainieren eines auf einem Convolutional Neural Network (CNN) basierenden Bildcodierermodells verwendet. Dieser Encoder verwendet ein Bild als Eingabe und erzeugt einen Merkmalsvektor, auch als Darstellung oder Einbettung bezeichnet.
Netskope TYOC kombiniert einen von Netskope erstellten vortrainierten Bildencoder mit einer kleinen Anzahl von Trainingsbildern, die von einem Kunden bereitgestellt werden. Durch diese Kombination ist die Netskope-Sicherheits-Cloud in der Lage, eine Bildähnlichkeitsbewertung für kundenrelevante Dateien mit einer Leistung durchzuführen, die der von integrierten (vordefinierten) Dateiklassifizierern entspricht.
Training mit kontrastivem Lernen
Das Encoder-Modell lernt, Ähnlichkeiten zwischen Bildern zu erkennen, indem es feststellt, dass übereinstimmende Bildpaare – sogenannte positive Paare – die größte Ähnlichkeit aufweisen. Umgekehrt wird nicht übereinstimmenden Paaren oder negativen Paaren – die aus dem restlichen Bilddatensatz gezogen werden – die geringste Ähnlichkeit zugewiesen. Wir veranschaulichen dieses Konzept unten anhand von Beispielen positiver und negativer Paare.
Der mit kontrastivem Lernen trainierte Bildcodierer ordnet jedes Bild einer hochdimensionalen Einbettung für semantische Hashes zu und erfasst so effektiv die semantische Bedeutung des Bildes. Die folgende Abbildung zeigt die Anwendung dieses vortrainierten Bildcodierers auf den Datensatz „Dogs & Muffins“, der aus acht Bildern von Hunden und acht Bildern von Muffins besteht, die sich alle im Aussehen stark ähneln. Auf der rechten Seite präsentieren wir eine dreidimensionale Projektion der für jedes Bild generierten hochdimensionalen Einbettungen. Diese Visualisierung zeigt deutlich die deutliche Trennung der beiden Kategorien innerhalb des Einbettungsraums und unterstreicht die Wirksamkeit des Encoders beim Erfassen und Unterscheiden der semantischen Essenz der Bilder.
Verwenden des Train Your Own Classifier
Durch die Verwendung des vorab trainierten Bildcodierermodells ermöglicht unser System Kunden, ihre Trainings- oder Referenzbilder hochzuladen, um einen maßgeschneiderten Klassifikator zu trainieren. Für eine optimale Leistung wird empfohlen, für jede Kategorie mindestens 20–30 Referenzbilder bereitzustellen. Der Bildencoder verarbeitet diese Referenzbilder und wandelt sie in hochdimensionale Einbettungen um. Aus Datenschutzgründen werden die Originalbilder nach der Kodierung gelöscht. Diese Referenzeinbettungen werden dann verwendet, um einen Approximate Nearest Neighbors (ANN)-Index zu erstellen, der als benutzerdefinierter Klassifikator fungiert.
Während der Inferenzphase werden neue Bilder kodiert, um Einbettungen mit demselben Bildkodierermodell zu generieren. Das ANN-Modell identifiziert dann die Klassenbezeichnung der nächstgelegenen Referenzeinbettung. Wenn der Abstand zu dieser nächstgelegenen Einbettung unter einen vordefinierten Schwellenwert fällt, wird dem Bild das entsprechende vorhergesagte Label aus der Referenzeinbettung zugewiesen. Wenn nicht, wird das Bild unter der vorhergesagten Bezeichnung „Sonstiges“ kategorisiert.
Fallstudien
Zugangskarten
Bei dieser Bewertung haben wir die TYOC-Methode zur Klassifizierung von Zugangskarten übernommen, wie unten beschrieben. Unser Datensatz umfasste zunächst nur drei authentische (Muster-)Beispiele, die auf der linken Seite dargestellt sind. Um unsere Trainingsdaten zu erweitern, haben wir 30 synthetische Bilder generiert. Diese Erweiterung beinhaltete das Ersetzen der Porträts auf den Beispielkarten durch eine Vielzahl zufällig ausgewählter Porträts, wie auf der rechten Seite dargestellt. Anschließend haben wir 20 dieser Bilder für das Training des Klassifikators ausgewählt, während die restlichen 10 zusammen mit 1.000 zufällig ausgewählten Negativbeispielen zu Testzwecken verwendet wurden. In der Testphase zeigte der benutzerdefinierte Klassifikator eine außergewöhnliche Leistung und erreichte eine Rückruf- oder Erkennungsrate von 100 % bei einer Genauigkeit von 99,3 %.
Handschriftliche Unterschriften
Für dieses Experiment wurde ein öffentlicher Datensatz handschriftlicher Unterschriften verwendet. Der Datensatz enthält Unterschriften von 64 Personen mit ungefähr 25 Bildinstanzen für jeden Namen. Davon stellen etwa 10 Bilder pro Name Fälschungen dar. Alle Bilder wurden mit dem vorab trainierten Bildcodierer in Einbettungen umgewandelt, ohne dass ein weiteres erneutes Training erforderlich war. Für jede Person wurden sechs Einbettungen als Referenzbilder in Annoy integriert, während die verbleibenden etwa 20 Einbettungen pro Name als Testbeispiele dienten. Bei der Auswertung der Testbilder von Unterschriften konnte eine Zuordnung zum entsprechenden Namen mit einer Genauigkeit von 87 % erfolgen, sofern Fälschungen als gültige Übereinstimmungen gewertet wurden. Wenn Fälschungen ausgeschlossen wurden, verringerte sich die Genauigkeitsrate leicht auf 84 %.
Datenschutzbedenken
Unser vortrainierter Bildencoder übersetzt Bilder in hochdimensionale semantische Einbettungen – kompakte Vektordarstellungen der wesentlichen Bedeutung eines Bildes und seiner visuell ähnlichen Gegenstücke. Da diese Einbettungen semantische Daten enthalten, besteht das theoretische Risiko, dass Bilder teilweise oder vollständig aus ihren Einbettungen rekonstruiert werden können, was möglicherweise die Privatsphäre der Benutzer in unserem System gefährdet.
Um diese Bedenken auszuräumen, haben wir ausführliche Experimente durchgeführt und festgestellt, dass es zwar theoretisch möglich ist, Bilder unter äußerst unwahrscheinlichen Umständen aus hochdimensionalen Einbettungen zu rekonstruieren, die resultierenden Versionen jedoch eine sehr geringe Wiedergabetreue aufweisen würden. Diese Einschränkung schränkt die Menge der wiederherstellbaren Informationen erheblich ein un