2025-09-05 –, Room 1 (Upstairs)
Language: Deutsch
Jeder, der schon einmal ChatGPT oder ähnliche Chatbots benutzt hat, kennt das Problem: Die Antwort klingt überzeugend, ist aber faktisch falsch – sogenannte „Halluzinationen“. Eine Möglichkeit Halluzinationen zu reduzieren bietet der Retrieval-Augmented Generation (RAG) Ansatz: Dafür wird die KI mit selektierten Informationen aus einer eigenen Wissensbasis angereichert. Das Ergebnis sind generierte Antworten, deren Aussagen direkt aus der externen Quelle abgeleitet und dadurch faktisch besser überprüfbar sind.
Gerade im daten- und wissenschaftsjournalistischen Kontext, wo Fakten und korrekte Quellenangaben entscheidend sind, bietet das RAG Verfahren ein enormes Potenzial. Egal ob bei der automatisierten Recherche, Faktenprüfung oder der gezielten Auswertung riesiger Textmengen: Ein gut eingerichtetes RAG-System hilft Journalist:innen, Daten mit Hilfe von KI sinnvoll zu nutzen und zuverlässig in ihren Arbeitsalltag zu integrieren.
Im Rahmen des Workshops „Von Daten zur RAG“ soll praxisnah aufgezeigt werden, wie Redaktionen und Newsrooms ein eigenes RAG-System von Grund auf entwickeln, testen und schrittweise optimieren können. Der Schwerpunkt liegt dabei auf folgenden Bereichen:
Aufbau einer eigenen Wissensbasis
Wie können redaktionelle Inhalte (Artikel, Reportagen, Interviews) effizient aufbereitet und in eine durchsuchbare Datenbank überführt werden?
Generierung synthetischer Testdaten
Wie erstellt man mithilfe von LLMs aus dem vorhandenem redaktionellem Content einen Testdatensatz (Frage-Antwort-Paare), um das KI-System objektiv bewerten zu können?
Aufsetzen eines „naiven“ RAG-Systems:
Demonstration, wie ein erster, einfacher Prototyp mit grundlegenden Kompontenten (Vektorsuche, Kontexteinbettung, Textgenerierung) eingerichtet werden kann. Wie sehen die ersten Ergebnisse aus?
Definition sinnvoller Metriken
Anhand welcher konkreter Kriterien (Halluzinationsrate, Faktentreue, Verständlichkeit, Antwortrelevanz) soll die Qualität eines RAG-Systems evaluiert werden?
Systematische Verbesserung des Systems
Welche Methoden kann man nutzen, um die Performance des Systems zu verbessern (z.B. Optimierung der Suchfunktion, Kontextmanagement, Prompt Engineering)? Wir vergleichen systematisch die Ergebnisse mit dem naiven System.
Ziel des Workshops ist es, den Teilnehmer*innen einen ersten systematischen Einblick zu geben, wie RAG-Ansätze praktisch implementiert und evaluiert werden können, um so verlässlichere KI-Lösungen für die journalistische Praxis zu schaffen.
Ich arbeite seit September 2024 als Softwareentwickler und Datenwissenschaftler beim Science Media Center Germany. Davor habe ich Pharmazie und Neurowissenschaften in Münster, Köln und Wien studiert. Anschließend habe ich an der HHU Düsseldorf in der Experimentellen Psychologie promoviert. Aktuell beschäftige ich mich mit dem Einsatz und Nutzen generativer KI im Wissenschaftsjournalismus.