0:00:00.7 Max Havey: Hallo und willkommen zu einer weiteren Ausgabe von Security Visionaries, einem Podcast rund um die Welt der Cyber-, Daten- und Technologieinfrastruktur, der Experten aus der ganzen Welt und aus verschiedenen Bereichen zusammenbringt. Ich bin Ihr Gastgeber, Max Havey. Und heute tauchen wir mit Troy Wilkinson, CISO bei der Interpublic Group, auch bekannt als IPG, in die Welt der Data Lakes ein. Troja, willkommen in der Show.
0:00:21.5 Troy Wilkinson: Danke Max. Es ist wirklich eine große Freude, hier zu sein.
0:00:23.8 Max Havey: Schön, dass du da bist. Können Sie uns also erklären, was das Konzept von Data Lakes ist und warum sie wichtig sind? Als ein Aspekt moderner Sicherheit.
0:00:34.2 Troy Wilkinson: Ja, absolut. Ich denke, es ist wichtig, einen kleinen Schritt zurückzutreten und über den Grund zu sprechen, warum wir überhaupt Daten sammeln, alles, was wir fühlen, sehen und berühren, und die Technologie hat eine Art von Maschinenprotokollen, die daraus hervorgehen. Einige dieser Ereignisprotokolle sind nur normale Anmeldungen, Abmeldungen, aber einige davon sind eine sehr wichtige Sicherheitstelemetrie. Was wir in den letzten 25, 30 Jahren getan haben, ist wirklich zu versuchen, zu entscheiden, was für uns aus der Perspektive des Sicherheitsbetriebs wichtig ist, welche Daten wir sammeln müssen, welche Daten für ein Ereignis oder einen Vorfall wichtig sind, und dann wirklich in die Logik oder die Datenwissenschaft einzutauchen, die dahinter steckt, wie wir diese Vorfälle oder Ereignisse miteinander verknüpfen können. Und so war dies über einen längeren Zeitraum ein Datenproblem, und wir treten wirklich in die nächste Generation oder die nächste Grenze dieser Daten ein, indem wir die Daten so lange von der Analytik entkoppelt haben, dass wir gebeten wurden, diese Daten an einem einzigen Ort zu platzieren, was ich gerne als Legacy-SIM bezeichne. Wo Sie Ihre Daten in eine riesige Datenbank leiten und dann dort die Analysen durchführen, um Erkenntnisse aus all Ihren Vorfällen zu sammeln, können Sie jetzt mit der Data Lake-Struktur Ihre Daten in ein gemeinsames Schema in einem Data Lake einfügen und diese Daten von Ihren Analysen entkoppeln. Wenn also die nächste KI-Lösung auf den Markt kommt und Sie diese KI darauf anwenden möchten.
0:01:55.3 Troy Wilkinson: Dieser Datensatz, das ist großartig. Es ist ein Knopfdruck, Sie müssen Ihre Daten nicht in eine neue Lösung verschieben, Sie müssen sie nirgendwo hinportieren, Sie können einfach diese neuen Analysen anwenden, und ich denke, dies gibt Sicherheitsverantwortlichen und Sicherheitsbetreibern wirklich Flexibilität bei der Art und Weise, wie sie Sicherheitsoperationen und Korrelationssuchen in ihren Data Lakes durchführen. Ich habe wirklich das Gefühl, dass diese Flexibilität, diese Transparenz und das Dateneigentum und die Möglichkeit, wirklich zu entscheiden, wie lange man diese Daten aufbewahrt, ein wirklich wichtiges Entscheidungskriterium für Data Lakes sind und wie sie die Branche der Sicherheitsabläufe verändern werden.
0:02:30.5 Max Havey: Bis zu einem gewissen Grad ist es eine Art Ort, der als Repository für all diese Daten dient, die Organisationen in all den Jahren erstellt haben, und den sie jetzt für alle Zwecke verwenden können, die sie benötigen, sei es mit einem KI-Modell oder mit Analysen oder was auch immer, aber es ist im Wesentlichen etwas, das ihnen hilft, alles so einzuschließen, dass sie es so sicher wie möglich aufbewahren können Brunnen.
0:02:51.7 Troy Wilkinson: Ja, absolut, und ich möchte auch auf die Kosten eingehen, also wenn Sie darüber nachdenken, dass die Kosten für Daten enorm gesunken sind, so dass die Speicherung von Daten in der Cloud jetzt weniger als ein paar Cent pro Gigabyte beträgt, so dass Sie in der Lage sind, mehr Daten zu speichern, also in der Vergangenheit mussten Sie sich wirklich darüber im Klaren sein, welche Daten ich auf meine SIM bringe und mit welchen Daten ich Korrelationen vornehmen kann. Es gab also Einschränkungen, und ich kann als Sicherheitsverantwortlicher entscheiden, dass ich diese sehr umfangreiche Datenquelle nicht einbeziehen kann, weil es zu teuer ist, das zu tun, aber ich wollte es wirklich.
0:03:17.7 Troy Wilkinson: Und mit der Data-Lake-Struktur sind Sie jetzt in der Lage, diese zu viel geringeren Kosten einzubringen und sie für Korrelationssuchen zu verwenden, wie Sie es vorher nicht konnten. Zum Beispiel sind DNS-Protokolle in der Regel sehr verrauscht und sehr ungewöhnlich, so dass viele Sicherheitsverantwortliche sie nicht einbeziehen, aber sie sind sehr wertvoll in Zeiten von Vorfällen oder wenn Sie zurückgehen und sehen möchten, ob ein Benutzer auf eine bestimmte Website gegangen ist und wirklich ins Unkraut geraten ist. Wenn Sie diese Daten also in einem Data Lake haben, in dem sie sehr günstig gespeichert werden können, können Sie sie für langfristige und sehr tiefgreifende Untersuchungen zur Verfügung stellen, insbesondere bei einer forensischen Untersuchung nach einem Vorfall.
0:03:51.5 Max Havey: Das Aufkommen dieses billigen Speicherplatzes und der Möglichkeit, all diese Daten auch nur zu haben, schafft letztendlich neue Möglichkeiten, wie Sie sie am besten nutzen können, und mehr Speicherplatz führt zu mehr Innovation mit diesen Daten und zu aufregenderen Dingen, die Leute im Sicherheitsbereich und anderswo mit diesen Daten tun können.
0:04:08.7 Troy Wilkinson: Absolut, und eine weitere Sache, die man erwähnen sollte, ist, dass die Möglichkeit, diese Daten im Laufe der Zeit zu speichern, es dem Sicherheitsverantwortlichen ermöglicht, verschiedene Arten von Analysen darauf anzuwenden. Zum Beispiel haben wir heute mehrere Arten von KI-generierten Suchvorgängen und KI-generierten Korrelationsereignissen und sind in der Lage, Telemetriedaten aus all Ihren Datenquellen in großem Umfang und mit hoher Geschwindigkeit zusammenzuführen, oder das war uns noch nie zuvor möglich. Nun, das war das Versprechen von SIM in der Vergangenheit, alle Ihre Daten an einem einzigen Ort zu bringen, lassen Sie uns all diese ausgefallene Interpretation davon machen, aber ich denke, dass wir aus der Perspektive eines Straßenbetreibers einfach nie in großem Maßstab dorthin gekommen sind, wegen der Kosten, wegen des Wissens, das es brauchte, um das zu betreiben, und wegen der Wartung davon, Wir waren lange Zeit vor Ort, also war das Rechenzentrum voller Server, die man warten musste, und dann sind wir in eine Cloud-Ära übergegangen, in der die SIM jetzt in der Cloud ist, und es ist sehr teuer mit der Rechenleistung, die für diese hochkomplexen Analysen erforderlich ist, in der Lage zu sein, Ihre Daten zu entkoppeln und vor allem, Wenn Sie diese Daten in einem gemeinsamen Schema oder dem offenen Cybersicherheitsschema des Frameworks haben, sodass sich jede Protokollquelle im selben Schema befindet, sodass ein Hostname ein Hostname und ein Computer ein Computer ist und eine IP-Adresse eine IP-Adresse ist, müssen Sie das nicht übersetzen, Sie müssen nicht mehrere Indizes oder Datenquellen durchsuchen und es übersetzen.
0:05:24.2 Troy Wilkinson: Mit anderen Worten, es ist alles in der gleichen Sprache, Sie können Fragen zu Ihren Daten in großem Umfang und an mehreren verschiedenen Orten stellen, und das hilft wirklich, die Nadel im Stapel der Nadeln zu finden, wie wir gerne sagen, um Bedrohungsakteure zu finden, die schlechte Dinge tun, indem sie Ihre Infrastruktur, Ihre Server, Ihre Cloud, es wirklich zusammenzuführen, wo Sie diese Erkenntnisse zuvor vielleicht verpasst haben.
0:05:45.8 Max Havey: Absolut. Und das bringt mich zu meinem nächsten Gedanken: Was sind einige der Herausforderungen, auf die Sie als CISO gestoßen sind, wenn es um die Verwendung von Data Lakes und den Schutz von Data Lakes geht?
0:05:54.6 Troy Wilkinson: Nun, ich denke, dass die Herausforderungen in der Regel die gleichen sind wie bei jeder Art von Datenquelle: Sie müssen über Datenschutzmaßnahmen verfügen, Sie müssen das Eigentum und die Herkunft der Daten haben, Sie müssen sicherstellen, dass Sie Daten im richtigen Zeitrahmen ablehnen, wie es Ihre gesetzlichen Anforderungen sind. Sie haben also immer noch die gleichen Datenschutzbedenken wie bei jeder anderen Datenquelle.
0:06:14.5 Max Havey: Absolut, und in diesem Sinne, warum sind Data Lakes zu einer immer wichtigeren Bedrohungsfläche geworden, um sich vor böswilligen Akteuren und anderen Personen zu schützen, die entweder versuchen, in diese Daten einzudringen oder diese Daten zu vergiften, warum wird dies zu einer wichtigen Bedrohungsfläche, die Sicherheitsexperten im Auge behalten sollten?
0:06:31.9 Troy Wilkinson: Ja, gute Frage. Ich denke, dass Bedrohungsakteure aus der Datenperspektive immer auf der Suche nach Daten sind, die sie exfiltrieren können. Ich denke, wir haben das in den letzten Jahren als ein zunehmendes Thema bei den Bedrohungsakteuren gesehen, die jüngsten Schneeflockenvorfälle, die wir in mehreren großen Organisationen gesehen haben, zeigen uns, dass Bedrohungsakteure nach großen Datenquellen suchen, um sie zu exfiltrieren. Datenschutz ist also extrem wichtig, sicherlich ist Datenschutz und Exfiltration ganz oben auf der Liste der Bedrohungsakteure, und deshalb sind wir immer bestrebt, dies zu schützen. Ich denke, dass Bedrohungsakteure wirklich darauf bedacht sind, an die Daten des Unternehmens zu gelangen, und sie finden sie sehr wertvoll. Früher haben wir Ransomware-Angriffe gesehen, bei denen es nur darum ging, die Server zu verschlüsseln und die Unternehmen gegen Lösegeld zu halten, jetzt exfiltrieren sie diese Daten tatsächlich. Und so handelt es sich um sekundäre und sogar tertiäre Daten, Ransomware, bei der Sie sagen: Wenn Sie uns nicht bezahlen, geben wir Ihre Daten für die Öffentlichkeit frei, so dass die Daten zu einer monetarisierten Ware geworden sind, für die die Bedrohungsakteure weiterhin ein Ziel sein können.
0:07:24.6 Max Havey: Absolut, und Sie haben gesehen, dass es bei Konzernen oder Organisationen, die Giga-Leaks hatten, ich erinnere mich speziell an Nintendo, im Laufe der Jahre eine Art groß angelegte Art von Unterhaltungskonzernen und anderen Leuten in allen Branchen gab, die diese Art von riesigen Datenlecks hatten, und ich denke, das ist ein interessanter Punkt, dass es jetzt diese Datenmengen gibt, die vielleicht nicht da waren 15. Vor 20 Jahren, nur weil wir es heute in der Lage sind, es im Griff zu haben.
0:07:49.2 Troy Wilkinson: Wenn wir uns die Datensätze ansehen, schauen wir uns den Sony-Hack und das Exfiltrieren von Filminformationen an. Wenn man sich die anderen Bankenbranchen ansieht, in denen sie versuchen, Informationen über Kunden zu exfiltrieren, denke ich, dass jeder Datensatz einzigartig ist und geschützt werden muss, aber wenn man an die Sicherheits-Data Lakes denkt, über die wir hier in der Sicherheitstelemetrie für Sicherheitsoperationen sprechen, könnten Bedrohungsakteure einen sehr großen Einblick in das gewinnen, was ein Kunde tut, um sich zu schützen. Das würde ihnen einen Weg geben, sie noch mehr zu nutzen, mit anderen Worten, sie könnten Wege finden, in ihre Backups, in ihre Datenbanken und in ihre Server zu gelangen, und so ist diese Sicherheitstelemetrie auch für Bedrohungsakteure sehr wertvoll, so dass wir sogar mehr Leitplanken um unsere Data Lakes legen müssen.
0:08:29.4 Max Havey: Absolut, und dann sprechen wir über die Idee, Data Lakes zu verwenden, um KI-Modelle und solche Dinge zu trainieren. Ich weiß, dass die Idee, Daten zu vergiften, ein echtes Risiko darstellt, wenn es um Training, generative KI und andere KI-Modelle geht, wie ist das ein Problem, und wie können die Leute darüber nachdenken, sich davor zu schützen, wenn es um Data Lakes geht?
0:08:47.5 Troy Wilkinson: Wenn wir uns also große Sprachmodelle und andere Arten von Grundlagenmodellen für künstliche Intelligenz ansehen, die wir selbst füttern, dann ist dies ein Modell, das Sie vor Ort oder in Ihrer eigenen Cloud erstellen und pflegen. Ich denke, es ist wirklich wichtig zu verstehen, dass diese Option der Datenvergiftung für Bedrohungsakteure da ist, die sie ausnutzen können. Sie müssen sicherstellen, dass niemand in der Lage ist, die Eingaben im Grunde zu