01.03.2024

Datenschutzkonforme KI-Modelle

Lesedauer: 6 Min

KI-Assistenten können eine tolle Unterstützung in unserem Arbeitsalltag bieten. Aber wie schützen wir unsere sensiblen Daten bei der Nutzung? Dieser Artikel ist eine erste Recherche über künstliche Intelligenz und Datenschutzkonformität.

KI generiertes Bild: Hund, der an einem Computer arbeitet.

Künstliche Intelligenz hat sich im vergangenen Jahr vom Tech-Trend der Zukunft zum Teil unseres Alltags entwickelt. Es gibt mittlerweile KI-basierte Dienstleistungen für fast jede Lebenslage, ob privat oder beruflich. Und das macht die Technologie auch so richtig interessant für Unternehmen. Laut einer Umfrage von Bitkom, arbeiten bisher erst drei Prozent der deutschen Unternehmen mit generativer KI. Das wird sowohl in Deutschland als auch global in den kommenden Jahren ausgebaut, sodass wir uns natürlich auch stark mit dem Thema befassen.

In diesem Kontext stellen unsere Kunden uns immer wieder die Frage, ob wir KI-Assistenten bauen können, die auch Datenschutzkonform sind. Und diese Anforderung ist absolut richtig und wichtig: Denn um Arbeitsprozesse effektiv zu unterstützen, muss die KI tief in die internen Abläufe eines Unternehmens eingreifen. Das beinhaltet nicht nur oberflächliche Informationen, sondern gegebenenfalls sogar geschützte Geschäftsgeheimnisse.

Die Herausforderung besteht also darin, der KI Einblicke in sensible Daten zu geben, ohne die Integrität dieser zu gefährden. Geht das aktuell überhaupt? Um dies herauszufinden, haben wir recherchiert und das KI-Modell LlaMA 2 als Praxis-Beispiel genommen, um zu zeigen, was bei einem datenschutzkonformen KI-Assistenten nötig ist.

Wir zeigen Dir, was Du über datenschutzkonforme KI wissen musst und wie gut diese KI-Modelle für den deutschsprachigen Raum angewendet werden können.

Was sind KI-Assistenten eigentlich?

Bevor wir in den Deep Dive gehen, geht’s um KI-Assistenten im Allgemeinen. Sie sind komplexe KI-Modelle, die darauf ausgelegt sind, natürliche Sprache zu verstehen, verarbeiten und Texte so zu generieren, dass die Antworten menschenähnlich sind. Je besser das Modell trainiert wurde, desto menschlicher sind die Antworten, bis hin zum personalisierten Schreibstil. Diese Art der KI fällt in die Gruppe der Large Language Models (LLM) und ChatGPT ist gerade das bekannteste Produkt.

KI-Assistenten haben weitreichende Funktionen, von der automatisierten Content-Erstellung bis zur Unterstützung in verschiedenen geschäftlichen Prozessen. Die Fähigkeit, sie so anzulernen, dass sie sich mit den internen Strukturen eines Unternehmens auskennen, verspricht effiziente und kostensparende Arbeitsabläufe unter dem Einsatz von KI-Assistenten.

Insbesondere LlaMA 2 ist ein vielversprechendes Modell, jedoch nur eines von vielen Optionen, die auf dem Markt verfügbar sind.

Eine datenschutzkonforme KI - geht das überhaupt?

Die Nutzung künstlicher Intelligenz wird mittlerweile immer häufiger im Kontext der Datenschutzkonformität diskutiert, insbesondere vor dem Hintergrund der europäischen Datenschutz-Grundverordnung (DSGVO). Sie gibt klare Richtlinien für die Erhebung, Verarbeitung und Speicherung von personenbezogenen Daten.

KIs werden nämlich trainiert, indem sie Daten verarbeiten. Zunächst sind dies öffentlich zugängliche oder gekaufte Datensätze. Doch viele kostenfreie KI-Modelle entwickeln sich auch weiter, indem sie die Nutzeranfragen und Daten dazu nutzen. Im Hinblick auf persönliche Informationen oder Interna eines Unternehmens, wird in einem solchen Fall der Datenschutz nicht eingehalten. Und genau diese Informationen wollen wir auch bei der Verwendung von KI-Assistenten schützen, insbesondere wenn diese ursprünglich auf US-amerikanischen Plattformen basieren. US-amerikanische Datenschutzgesetze unterscheiden sich erheblich von den europäischen Standards, was Fragen zur Harmonisierung und Interoperabilität aufwirft.

Aber können wir das überhaupt? Die einfache Antwort lautet “ja”. Es gibt Modelle, die sicherstellen, dass die europäischen Datenschutzprinzipien in Verbindung mit KI-Systemen eingehalten werden und die KI nicht von den Eingaben der Nutzer:innen trainiert wird. Unternehmen, die KI in ihre Prozesse integrieren, müssen garantieren, dass die eingesetzten Modelle und Algorithmen den Anforderungen der DSGVO entsprechen. Dies erfordert nicht nur technische Anpassungen, sondern auch eine umfassende strategische Herangehensweise, um sicherzustellen, dass keine sensiblen Daten an die KI weitergegeben werden.

Praxis-Beispiel: LlaMa 2

Bei der Entscheidung, wie ein Tech-Stack für einen KI-Assistenten aussehen kann, müssen wir uns für ein KI-Modell und einen Applikations-Server sowie ein Frontend entscheiden. Den Applikations-Server benötigen wir, um externe Datenquellen anzubinden und ein öffentliches Interface zur Verfügung zu stellen. Es gibt auch Server-Anbieter, die dafür ausgelegt sind, KIs zu hosten. Das Frontend greift auf Applikations-Server zu, um mit der KI zu interagieren.

In unserer Recherche haben wir uns auf LlaMA 2 fokussiert, einer Large Language Model KI, die ähnlich wie ChatGPT zur Erstellung von Texten genutzt wird. LlaMA 2 gehört zu Meta und basiert auf Open Source.

LlaMA 2 ist mit verschiedenen Toolings kompatibel, was eine flexible Integration in bestehende Arbeitsabläufe ermöglicht. Services wie AWS SageMaker machen es leicht, KI-Modelle in Cloud-Umgebungen bereitzustellen. Tools wie LangChain ermöglichen es zudem, firmeninterne oder öffentliche Daten einzubinden.

Herausforderungen und Learnings

📚Einarbeitung

Datenschutz

Der Vorteil von LlaMA 2 ist, dass es kommerziell verwendet werden darf, wenn man eine Lizenz bei Meta angefragt und erhalten hat. Damit sind zwar hohe Kosten verbunden, aber wir können einstellen, dass die Informationen, die über diesen Zugang zum Training der KI, wie auch die Nutzeranfragen, nicht zum allgemeinen Training der KI verwendet werden. Unsere Daten werden also nur lokal in unserem Zugang verarbeitet und nicht weitergereicht. Die Suche nach einem ausgereiften KI-Assistenten, der grundsätzlich den spezifischen Anforderungen und Datenschutzrichtlinien deutscher Unternehmen entspricht, ist weiterhin eine aktive Baustelle.

Sprache

Ein erheblicher Nachteil, der sich jedoch sicherlich mit der Zeit minimieren wird, ist, dass es immer noch sprachliche Barrieren gibt. Obwohl LlaMA 2 oft den Kontext deutscher Fragen versteht, neigt es dazu, in Englisch zu antworten, was die Benutzerfreundlichkeit für deutschsprachige Unternehmen beeinträchtigen kann. Es gibt jedoch abgeleitete Modelle, die auf deutschen Texten trainiert wurden.

Feintuning

Llama 2 kann “out of the box” verwendet werden, ohne eigene Daten einzufüttern. Wenn man das Modell (oder andere KI-Modelle) dennoch auf seine eigenen Bedürfnisse zuschneiden möchte, gibt es zwei Möglichkeiten: System Prompts / Prompt Templates oder Pre-training, System Prompts / Prompt Templates sind Meta-Prompts, die das Ergebnis des Modells beeinflussen können. Anstatt den Nutzerinput direkt an das Modell zu schicken, wird er vorher mit relevanten Informationen und Kontext aufbereitet. Diese vorgefütterten Informationen müssen kein Text sein, sondern können auch Dokumente mit wichtigem Kontext für die KI sein.

Meet the Expert: Garrit Franke, DevOps

Unser DevOps Garrit Franke ist einer unserer LLM-Experten und hat auch an der Recherche zu LlaMa 2 gearbeitet. Für ihn ist klar, dass künstliche Intelligenz hier ist um zu bleiben und dass der Schutz sensibler Daten nicht auf der Strecke bleiben darf. Garrit betont: “Angesichts der Geschwindigkeit, mit der sich KI entwickelt, ist der proaktive Umgang mit Datenschutz essenziell. Jetzt ist der Moment, innovative Lösungen zu erforschen und zu implementieren, die mit der KI-Revolution Schritt halten.” Datenschutz im Kontext von KI sieht er nicht als Hindernis, sondern viel eher als eine tolle Gelegenheit, innovative Ansätze für Technologie und Ethik zu entwickeln.

Abschließend können wir bestätigen, dass es mit heutigen Mitteln absolut möglich ist, KI-Applikationen ohne Abhängigkeiten von Drittanbieter-Services datenschutzkonform zu entwickeln. Lediglich die Rechenleistung muss gegeben sein.

In diesem Artikel haben wir unseren Fokus auf Text-basierte Anwendungsfälle gelegt. Moderne KI-Modelle wie ChatGPT sind inzwischen Multi-Modal und können Text, Audio und Video interpretieren. Ob und wie diese Funktionen datenschutzkonform bereitgestellt werden können, werden wir in zukünftigen Recherchen genauer untersuchen.

Du bist ein Unternehmen und möchtest mehr erfahren? Melde Dich gerne direkt per Mail bei uns - wir freuen uns auf Deine Nachricht!

Du bist ein:e krasse:r Digital-Expert:in und möchtest ein Homie werden? Hier geht's zu unseren offenen Stellen!

Über die appmotion GmbH

Digitale Lösungen für die beste Customer Experience: Mit einem starken Fokus auf smarte Kundenerlebnisse und einem hohen Designanspruch unterstützt appmotion moderne Unternehmen bei der Entwicklung und Optimierung von langfristigen Kundenbeziehungen durch einzigartige digitale Kundenerfahrungen. Das Remote-first Unternehmen versteht sich als ganzheitlicher strategischer Berater, Umsetzer und Integrator bei digitalen Transformationsprozessen. Das vielfach ausgezeichnete und zertifizierte Unternehmen ist seit 2022 Teil der deutsch-schweizerischen MYTY Gruppe.