Das Fraunhofer-Institut für Sichere Informationstechnologie SIT gehört zu den führenden Forschungs- und Entwicklungseinrichtungen für Cyber-Sicherheit in Deutschland und Europa und ist Teil von ATHENE, dem nationalen Forschungszentrum für angewandte Cybersicherheit. ATHENE ist eine Kooperation der Fraunhofer-Gesellschaft mit der TU Darmstadt, der Hochschule Darmstadt und der Goethe-Universität Frankfurt. Unser gemeinsames Ziel: die Welt von morgen sicherer zu machen.
Was Du bei uns tust
Autorschaftsattribution (AA) beschreibt traditionell das Problem, einem unbekannten Text den wahrscheinlichsten Autor aus einer vorgegebenen Menge von Kandidaten korrekt zuzuordnen. Zu diesem Zweck steht eine sogenannte Kandidatenmenge zur Verfügung, die Beispieltexte der potenziellen Autoren enthält.
Mit dem technologischen Fortschritt im Bereich der Künstlichen Intelligenz werden jedoch immer mehr Texte von Large Language Models (LLMs) generiert oder ergänzt. Dies stellt bestehende AA-Methoden, die ursprünglich zur Zuordnung von Texten zu menschlichen Autoren entwickelt wurden, vor neue Herausforderungen.
LLM-generierte Texte sind selbst für Experten oft schwer als maschinell erzeugt zu erkennen. Noch schwieriger wird es, das spezifische LLM zu identifizieren, das den Text erstellt hat. Diese Masterarbeit soll sich dieser Herausforderung widmen.
Das Ziel der Arbeit ist es, eine spezielle AA-Methode zu konzipieren und zu entwickeln, die in der Lage ist, für einen gegebenen anonymen Text zu bestimmen, welches LLM ihn erzeugt hat. Dabei sollen keine Wasserzeichen verwendet werden, wie sie in der Vergangenheit eingesetzt wurden, um LLM-generierte Texte rückverfolgbar zu machen. Um die Komplexität der Aufgabe zu reduzieren, wird ein Closed-set-Szenario betrachtet. Das bedeutet, dass sich das tatsächlich verwendete LLM in der vorgegebenen Kandidatenmenge befindet. Eine Unterscheidung zwischen menschlichen Autoren und LLMs wird ebenfalls nicht vorgenommen.
Im Rahmen der Evaluierung soll die entwickelte Methode mit bestehenden Ansätzen verglichen werden. Darüber hinaus sollen Merkmale identifiziert und dargestellt werden, anhand derer die Zuordnung zum jeweiligen LLM erfolgt ist.
Was Du mitbringst
* Studienhintergrund in Informatik, Computational Linguistics, Data Science oder einem vergleichbaren Bereich
* Kenntnisse in NLP und Machine Learning, idealerweise Erfahrung mit Large Language Models (LLMs) und Textklassifikationsaufgaben
* Programmierkenntnisse in Python sowie Erfahrung mit gängigen ML/NLP-Bibliotheken
Was Du erwarten kannst
* Selbstständige Arbeitszeiteinteilung
* Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung
Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und Identität. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt.
Mit ihrer Fokussierung auf zukunftsrelevante Schlüsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber für innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft.
Haben wir Dein Interesse geweckt?