Die rasante Entwicklung von Large Language Models (LLMs) in den letzten Jahren hat das Gebiet der natürlichen Sprachverarbeitung (NLP) revolutioniert. LLMs sind tiefe neuronale Netze, die auf großen Textdatensätzen trainiert werden und eine zentrale Rolle im Bereich des Deep Learnings spielen. Zu den bekanntesten Modellen gehören GPT-4o, Gemini, Llama und seit kurzem auch DeepSeek-R1. Diese LLMs können mittlerweile eine Vielzahl von sprachbezogenen Aufgaben, einschließlich der Textgenerierung, mit einem hohen Maß an Kohärenz und Qualität lösen. Mit der Weiterentwicklung dieser Technologien wird die Unterscheidung zwischen KI-generiertem und menschlich geschriebenem Text immer schwieriger. Dies ist jedoch nicht nur von Vorteil: LLMs könnten auch missbraucht werden, beispielsweise um Desinformationen zu verbreiten, gefälschte Identitäten zu erstellen oder glaubwürdige Phishing-Nachrichten zu generieren. Vor diesem Hintergrund wird die Fähigkeit, LLM-generierte Texte zuverlässig zu identifizieren, immer wichtiger.
Das Ziel dieser Bachelorarbeit ist es, eine geeignete Methode zu konzipieren und zu implementieren, um LLM-generierte Texte von menschlich geschriebenen Texten zu unterscheiden.
Dazu soll zunächst ein geeigneter Datensatz konstruiert werden, der Beispiele für LLM-generierte Texte sowie menschlich geschriebene Texte enthält. Bei den LLM-generierten Texten sollen mindestens drei bekannte LLMs berücksichtigt werden (mit Fokus auf: ChatGPT, LLaMA und DeepSeek-R1). Die zu implementierende Methode wird keinen Zugriff auf die Interna der betrachteten LLMs erhalten. Das bedeutet, dass sie nur anhand des zu untersuchenden Textes beurteilen soll, ob ein Text von einem LLM oder von einem Menschen geschrieben wurde.
Was Du bei uns tust
Um dies zu erreichen, soll die Methode auf stilometrische Merkmale zurückgreifen. Zu diesem Zweck sind geeignete Merkmale (z. B. Wortarten, Funktionswörter, Konstituenten usw.) vorab aus der bestehenden Forschung zu ermitteln. Danach müssen die entsprechenden Methoden implementiert werden, um diese jeweiligen Merkmale aus den Texten zu extrahieren. Auf der Grundlage der Merkmale sollten die Texte dann in eine geeignete Datenrepräsentation (z. B. Merkmalsvektoren) umgewandelt werden und darauf aufbauend ein Klassifikator implementiert werden. Dieser sollte dann auf einem Teil der Daten trainiert und auf ungesehenen Texten evaluiert werden. Im Rahmen der Evaluierung sollten auch die verschiedenen Merkmale hinsichtlich ihrer Erkennungsgenauigkeit verglichen werden. Ziel ist es zu untersuchen, ob und welche Merkmale für eine sinnvolle Unterscheidung zwischen LLM und Menschen hilfreich sind.
Die Ergebnisse dieser Arbeit sollten zur wachsenden Relevanz der digitalen Textforensik beitragen und eine Grundlage für zukünftige Forschung in diesem Bereich schaffen.
Was Du mitbringst
* Studium der Informatik, Mathematik oder eines verwandten Fachgebiets mit Fokus auf Maschinelles Lernen und idealerweise Natural Language Processing (NLP)
* Fundierte Kenntnisse in Machine/Deep Learning
o Vertraut mit verschiedenen Architekturen von Neuronalen Netze (u.a. CNNs, Transformer, GNNs, xLSTM)
o Vertraut mit grundlegenden Begriffen und Konzepte wie: Klassifikation, Hyperparameter-Optimierung, Fine-Tuning, Evaluierung von Modellen
* Fundierte Kenntnisse in Python sind zwingend erforderlich
* Von Vorteil: Fähigkeit, Methoden und Verfahren aus wissenschaftlichen Veröffentlichungen eigenständig umzusetzen
* Von Vorteil: Wissen und Erfahrung im Bereich Cybersicherheit
* Bereitschaft, sich neuen Herausforderungen zu stellen
* Ausgeprägtes analytisches Denken
Was Du erwarten kannst
* Selbstständige Arbeitszeiteinteilung
* Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung
Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und Identität. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt.
Mit ihrer Fokussierung auf zukunftsrelevante Schlüsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber für innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft.
Haben wir Dein Interesse geweckt? Dann bewirb Dich jetzt online mit Deinen aussagekräftigen Bewerbungsunterlagen. Wir freuen uns darauf, Dich kennenzulernen!
Fraunhofer-Institut für Sichere Informationstechnologie SIT
www.sit.fraunhofer.de
Kennziffer: 78187 Bewerbungsfrist: