2.0 -//Pentabarf//Schedule//EN

PUBLISH GP7KZT@@25.scicar.de

-GP7KZT

Datenrettung in der Demokratie de

20250905T103000 20250905T111500 0.04500

Datenrettung in der Demokratie

Keynote zu Datenrettung in der Demokratie. PUBLIC CONFIRMED Begrüßung https://25.scicar.de/scicar25/talk/GP7KZT/ Saal David Schiller PUBLISH J8AWHC@@25.scicar.de

-J8AWHC

Datenretter:innen gegen DOGE - Lassen sich die Daten der USA vor Trump schützen? de

20250905T113000 20250905T123000 1.00000

Datenretter:innen gegen DOGE - Lassen sich die Daten der USA vor Trump schützen?

Kurz nach ihrem Amtsantritt hat die Trump-Regierung in rasendem Tempo begonnen, US-Behörden zu zerschlagen oder ihre Arbeit zu zensieren. Freiwillige versuchen seitdem, vor dem Angriff zu retten, was sich noch retten lässt: Sie [archivieren](https://www.technologyreview.com/2025/02/07/1111328/inside-the-race-to-archive-the-us-governments-websites/) Webseiten und [sichern](https://www.newyorker.com/news/the-lede/the-data-hoarders-resisting-trumps-purge) bedeutende Datensätze, vom Zensus bis zur NOAA. - Wie (gut) funktioniert die Datenrettung, was kann die Daten-Community beitragen? - Welche Datenquellen sind für Wissenschaft und Journalismus bereits verloren? - Lassen sich amtliche Daten so sichern, dass sie vor politischem Druck geschützt sind - und wären wir in Deutschland auf ein ähnliches Szenario vorbereitet? PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/J8AWHC/ Saal Simon Koenigsdorff David Schiller Katja Ickstadt PUBLISH XANF8S@@25.scicar.de

-XANF8S

Warum wählt ihr eigentlich so? Wie ihr mit den Daten aus Party Check über die Stimmung in der Bevölkerung berichten könnt. de

20250905T133000 20250905T143000 1.00000

Warum wählt ihr eigentlich so? Wie ihr mit den Daten aus Party Check über die Stimmung in der Bevölkerung berichten könnt.

Rund um Wahlen berichten wir Datenjournalist:innen noch immer mehr über Umfragen, Ergebnisse und Parteiprogramme als über Menschen und ihre Beweggründe für ihre Wahl. Das liegt auch daran, dass es an großen und aktuellen Datensätzen mangelt. Im Politbarometer oder Deutschlandtrend werden zwar aktuelle Stimmungen erfragt, aber nur von wenigen Menschen. Bessere Datensätze wie [GLES](https://www.gesis.org/en/gles) werden erst mit erheblicher Verzögerung veröffentlicht. Wir zeigen euch in diesem Workshop am Beispiel der Bundestagswahl, wie ihr mit den Daten aus [Party Check](https://party-check.org/) hochaktuell über Stimmungen und Meinungen auch in kleinteiligen Bevölkerungsgruppen berichten könnt. Party Check ist ein wissenschaftliches Projekt unter der Leitung von Philipp Thomeczek an der Uni Potsdam in Kooperation mit der Süddeutschen Zeitung. In einem Tool ähnlich dem Wahl-O-Mat können Nutzer:innen vor Wahlen Position zu verschiedenen Fragen beziehen. Anschließend erhalten sie ein Ergebnis, wie groß ihre Übereinstimmung mit den Positionen der Parteien ist. Diese werden zuvor in einer Befragung von Politikwissenschaftler:innen ermittelt. Bei der Europa- und Bundestagswahl haben jeweils Zehntausende das Tool genutzt und dabei auch soziodemografische Daten gespendet. Anders als bei vergleichbaren Projekten sind die erhobenen Daten als Open Data für alle Interessierten aus Wissenschaft und Datenjournalismus quasi live verfügbar. Wir planen, Party Check für alle zehn in den Jahren 2026 und 2027 anstehenden Landtagswahlen auf den Weg zu bringen. Wir zeigen euch in diesem Workshop, wie ihr an die Daten kommt, wie sie aussehen, wie ihr damit arbeiten könnt und was ihr dabei beachten solltet. Und wir freuen uns auf euren Input und eure Ideen: Welche Fragen sind für euer Bundesland besonders interessant? Habt ihr Ideen, wie sich Menschen aus allen Bevölkerungsgruppen am besten ansprechen ließen? Welche Ideen habt ihr noch, um gemeinsam für mehr offene Daten rund um Wahlen zu sorgen? PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/XANF8S/ Saal Sören Müller-Hansen Jan Philipp Thomeczek PUBLISH NA3EYB@@25.scicar.de

-NA3EYB

Politik auf TikTok: Ein interdisziplinäres Datenspende-Projekt zur Bundestagswahl de

20250905T143000 20250905T153000 1.00000

Politik auf TikTok: Ein interdisziplinäres Datenspende-Projekt zur Bundestagswahl

Wahlkampf und politische Kommunikation finden zunehmend in sozialen Medien statt. TikTok gilt unter jungen Wähler:innen als besonders einflussreiche Plattform. Aber wie viel Politik landet wirklich in den TikTok-Feeds? Welche Parteien sind dort erfolgreich und mit welchen Mitteln? Am wichtigsten: beeinflusst das die Meinung der Nutzer:innen? Das haben Journalist:innen von BR und Stuttgarter Zeitung sowie Forscher des Weizenbaum-Instituts und der Uni Zürich in einem interdisziplinären Datenspende-Projekt untersucht (https://www.dein-feed-deine-wahl.de). Mit Daten von 930 Nutzer:innen entstand der bis jetzt mit Abstand größte Datensatz dieser Art. Auch die quantitativen und qualitativen Analysen zeigen, dass Datenspenden für Recherchen zu hyper-individualisierten Medien wie TikTok hervorragend geeignet sind. Die Methode ist im Journalismus bereits für andere Themen eingesetzt worden (z.B. OpenSchufa, Wem gehört Berlin, WhoTargetsMe, DataSkop). Das Projekt offenbart nun ein ganz neues und sehr großes Potenzial für Recherchen zu Tiktok, da es in der Lage ist aufzuzeigen, welche Inhalte Nutzer:innen wirklich sehen und mit welchen sie interagieren. Zusätzlich haben wir dieses Wissen mit Informationen zur Wahlentscheidung verknüpft Das Projekt stellt einen in dieser Art bisher einzigartigen Erfolg einer Kooperation zwischen Wissenschaft und Forschung dar. Dabei zeigt es nicht nur die bisher ungenutzten Potentiale der Methode auf, sondern auch deren Limitationen, und kann dadurch einen Beitrag zum andauernden Diskurs zu Plattformregulierung und den Datenzugang für Journalismus, Forschung und Zivilgesellschaft leisten. Im Vortrag berichten die Beteiligten anschaulich und anhand konkreter Beispiele von den Herausforderungen und Chancen dieses Datenspende-Projekts. Es geht um die gewonnenen Erkenntnisse zum Wahlkampf auf TikTok und um Ansätze für weitere Datenspende-Projekte auch und ganz besonders als Kooperation von Journalist:innen und Wissenschaftler:innen. Eine Interaktion mit dem Publikum und dessen Erfahrungen sowie Ideen ist ausdrücklich gewünscht. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/NA3EYB/ Saal Dr. Jan Georg Plavec Simon Koenigsdorff PUBLISH YHEW3U@@25.scicar.de

-YHEW3U

AQuA: A Tool to Automatically Measure Deliberative Quality of Online Discussions Using Artifical Intelligence en

20250905T163000 20250905T170000 0.03000

AQuA: A Tool to Automatically Measure Deliberative Quality of Online Discussions Using Artifical Intelligence

Assessing the quality of political online discussions is crucial for understanding and fostering democratic discourse, yet automating this process remains challenging. While research has identified various indicators to evaluate the deliberative quality of online discussions, existing approaches often focus on isolated aspects rather than a holistic measure of deliberative quality. In addition, most approaches are based on manual content analysis. With advancements in deep learning, it is now possible to develop AI-driven methods that enhance transparency and reliability in the analysis of online deliberation. We introduce AQuA, an additive score that quantifies deliberative quality based on multiple indices for each discussion post. Unlike singular scores, AQuA retains detailed information on different deliberative aspects, ensuring greater interpretability. We develop adapter models for 20 deliberative indices and use correlation coefficients between expert annotations and non-expert perceptions to weigh these indices into a unified deliberative score. Our results demonstrate that AQuA can be efficiently computed from pre-trained adapters and generalizes well to unseen datasets. Moreover, our comparison of expert and non-expert annotations provides empirical support for theoretical findings in social science research. This presentation will be relevant for data journalists, data scientists, and researchers from communication science as well as computational social science working on AI applications to analyze online deliberation. We will discuss the methodological foundations of AQuA, demonstrate its practical applications in assessing the deliberative quality of online discussions, and show its potential for integrating AI-driven analysis of online deliberation into journalistic and academic workflows. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/YHEW3U/ Saal Maike Behrendt Carina Weinmann PUBLISH ENTWKD@@25.scicar.de

-ENTWKD

Kanzlersprache, Koalitionsverträge, Bundestag: Learnings aus KI-basierten Textanalysen de

20250905T170000 20250905T173000 0.03000

Kanzlersprache, Koalitionsverträge, Bundestag: Learnings aus KI-basierten Textanalysen

Im Team Daten & Visualisierungen beim SPIEGEL haben wir in den vergangenen Monaten auf unterschiedliche Weise Künstliche Intelligenz genutzt, um Texte zu analysieren. Wir haben sowohl generative LLMs genutzt, als auf Klassifikation trainierte (repräsentative) Modelle. Mit repräsentativen Modellen haben wir in Koalitionsverträgen etwa **Themen** identifiziert oder **Ähnlichkeit** gemessen. Mit einer selbst konfigurierten **ChatGPT-Pipeline** haben wir **Emotionen** und Themen in Wahlkampfauftritten identifiziert. Für beide Varianten war wie immer eine strukturierte Vorverarbeitung der Daten nötig, mit etablierten Bibliotheken. Wie wir passende repräsentative Modelle gefunden haben, wie viel Aufwand es war, mit einem selbst konfigurierten generativen Modell zu arbeiten und wie viel **händische Korrektur** am Ende noch nötig war, berichten wir in unserem Vortrag. Die wichtigste Frage war und ist dabei für uns: Welchen **Mehrwert** bringt der Einsatz von KI? Dazu gehört die Frage, ob uns diese Art der Analyse im Vergleich zu den Analysen unserer Reporter:innen-Kolleg:innen einen Mehrwert liefert. Auch mussten wir uns immer wieder fragen, ob der Aufwand den Nutzen rechtfertigt - vor allem, wenn man am Ende noch händisch korrigieren muss. Wir möchten außerdem darauf eingehen, wie wir die KI-Ergebnisse strukturiert verifizieren könnten. Ziel des Vortrags ist, dem Publikum unsere Erfahrungen mit verschiedenen Modellen versus eigener Pipeline vorzustellen, und aufzuzeigen, wann und warum sich eine solche Methode lohnt. Am Ende würden wir gerne diskutieren, wie das Publikum auf unsere Analysen blickt, und wer andere Erfahrungen gemacht hat. PUBLIC CONFIRMED Podiumsdiskussion https://25.scicar.de/scicar25/talk/ENTWKD/ Saal Helen Bielawa PUBLISH QVRJPG@@25.scicar.de

-QVRJPG

Pub Quiz de

20250905T173000 20250905T183000 1.00000

Pub Quiz

Das Pub Quiz mit Jan Eggers PUBLIC CONFIRMED Anderes Format https://25.scicar.de/scicar25/talk/QVRJPG/ Saal Jan Eggers PUBLISH KYEAWQ@@25.scicar.de

-KYEAWQ

North Data als Datenquelle de

20250905T113000 20250905T120000 0.03000

North Data als Datenquelle

wird nachgereicht, soll u.a. NorthData als Recherchequelle thematisieren PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/KYEAWQ/ Seminarraum 1 (oben) Christina Brause PUBLISH Z9NCLP@@25.scicar.de

-Z9NCLP

Werbebibliotheken von Google und Meta: Learnings und Tipps für die Recherche de

20250905T120000 20250905T123000 0.03000

Werbebibliotheken von Google und Meta: Learnings und Tipps für die Recherche

Große Digitalkonzerne wie Google und Meta müssen ihr Geschäft mit Werbeanzeigen zumindest teilweise transparent machen – trotzdem ist es nicht leicht, diese Inhalte systematisch abzurufen und zu analysieren. Correctiv und ARD Datenjournalist:innen haben zur Bundestagswahl recherchiert und sind dabei sehr unterschiedlich vorgegangen. Bei dieser Präsentation geben wir Einblicke in unsere Analysen und zeigen, welche Informationen beispielsweise über den Inhalt einer Werbeanzeige, zu Kosten und Reichweite, sowie zum Targeting und der Ausspielung vorhanden sind, wie man auf diese zugreift und welche Herausforderungen man dabei bewältigen muss. Unser Fokus liegt dabei auf der technischen Umsetzung, der journalistischen Verwertbarkeit und der Übertragbarkeit auf zukünftige Projekte. Mit unserer Session wollen wir für Kolleg:innen den Einstieg in die Arbeit mit den Daten erleichtern und Grenzen der Werbebibliotheken sichtbar machen. Denn klar ist: Die Arbeit mit den Daten ist komplex, obwohl die Konzerne scheinbar ihrer Transparenzpflicht nachkommen und Daten zu politischen Werbeanzeigen veröffentlichen, die auf Google, YouTube, Facebook oder Instagram geschaltet werden. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/Z9NCLP/ Seminarraum 1 (oben) Natalie Widmann Stella Hesch PUBLISH R9RXTG@@25.scicar.de

-R9RXTG

Energie.Daten.Kommunikation - Schnittstellen zwischen Energiesystemforschung und Journalismus de

20250905T133000 20250905T143000 1.00000

Energie.Daten.Kommunikation - Schnittstellen zwischen Energiesystemforschung und Journalismus

Immer mehr Daten aus der Energieforschung werden öffentlich zugänglich – über Plattformen, Repositorien und offene Infrastrukturen. Diese Datensätze bieten eine wertvolle Grundlage für datenjournalistische Recherchen, Analysen und Visualisierungen. Gleichzeitig entwickelt auch die Wissenschaft zunehmend Formate, um ihre Ergebnisse visuell und digital aufzubereiten – häufig mit dem Ziel, eine breitere Öffentlichkeit zu erreichen. Doch wie gelingt der Austausch zwischen Wissenschaft und Datenjournalismus? Welche Datenformate, Plattformen und Zusatzinformationen sind nötig, damit Energiedaten und das zugehörige Expertenwissen aus der Forschung sinnvoll in journalistische Arbeiten einfließen können? Und umgekehrt: Was kann die Wissenschaft vom Journalismus lernen, wenn es um verständliche, zugängliche und wirkungsvolle Datenkommunikation geht? Im Rahmen eines Workshops möchten wir gemeinsam mit Datenjournalist:innen, Datenexpert:innen und Forschenden konkrete Bedarfe identifizieren: Welche Services, Schnittstellen und unterstützenden Tools würden die Zusammenarbeit erleichtern? Welche Formate haben sich in der Praxis bewährt? Welche Rolle können Forschungsdateninfrastrukturen dabei spielen? Der Workshop wird veranstaltet durch Forschende aus dem Konsortium [NFDI4Energy](https://nfdi4energy.uol.de/), das im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) eine dezentrale Infrastruktur für Energiedaten aufbaut. Neben der technischen Entwicklung versteht sich NFDI4Energy auch als Brücke zur Gesellschaft – mit dem Ziel, Forschungsdaten nicht nur innerhalb der Wissenschaft, sondern auch für weitere Stakeholder aus Gesellschaft und Industrie nutzbar zu machen. Gleichzeitig sollen Strukturen geschaffen werden, um diese Akteure stärker in die Energiesystemforschung einzubeziehen. Zielgruppe des Workshops sind sowohl datenjournalistisch arbeitende Personen und Datenexpert:innen mit Interesse am Thema Energie als auch Wissenschaftler:innen, die ihre Daten gezielter für die öffentliche Kommunikation aufbereiten möchten. Der Austausch soll Impulse geben für neue Kooperationen und Formate an der Schnittstelle von Energiesystemforschung und Journalismus. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/R9RXTG/ Seminarraum 1 (oben) Mirko Schäfer Christina Speck PUBLISH ZQJPBN@@25.scicar.de

-ZQJPBN

Energiewende tracken: Wie können wir die Datenqualität und -nutzbarkeit des Marktstammdatenregisters verbessern? de

20250905T143000 20250905T150000 0.03000

Energiewende tracken: Wie können wir die Datenqualität und -nutzbarkeit des Marktstammdatenregisters verbessern?

Das Marktstammdatenregister (MaStR) der Bundesnetzagentur ist für Datenjournalist:innen eine wichtige Quelle, um über den Stand der Energiewende zu berichten und diesen tagesaktuell zu verfolgen. Denn es enthält detaillierte Daten von Anlagenbetreibern, Netzbetreibern und Energielieferanten für den deutschen Strom- und Gasmarkt. Die Datenqualität ist jedoch oft unzureichend oder unbekannt, was zu fehlerhaften Analysen führt. Ein Problem, das vor allem in der regionalen und lokalen Berichterstattung bekannt sein dürfte. Durch eine Kooperation zwischen SWR Data Lab, Reiner Lemoine Institut (RLI) und OFFIS wollen wir die Datenqualität und -nutzbarkeit des MaStR verbessern. Ziel des Projekts ist die semantische Anreicherung des MaStR und eine Zusammenarbeit zwischen Wissenschaft und Journalismus bei der Datenvalidierung und Analyse. In dem Vortrag wollen wir diskutieren, welche Probleme es aus wissenschaftlicher und journalistischer Sicht bisher bei der Auswertung des MaStR gibt, wie wir die Datenqualität und -nutzbarkeit verbessern und die Ergebnisse journalistisch nutzen können. Wir teilen unsere bisherigen Testergebnisse und Fortschritte, und freuen uns gleichzeitig, wenn ihr eure Erfahrungen teilt und wir die Datenbasis MaStR gemeinsam verbessern können. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/ZQJPBN/ Seminarraum 1 (oben) Katharina Forstmair Florian Kotthoff Ludwig Hülk PUBLISH ZWPPYE@@25.scicar.de

-ZWPPYE

It Needs Energy – Wie wir Datenlücken in der Energiewende schließen de

20250905T150000 20250905T153000 0.03000

It Needs Energy – Wie wir Datenlücken in der Energiewende schließen

Fundierte Daten sind essenziell, um die Energiewende wirksam zu steuern, politische Maßnahmen zu bewerten und Fortschritte messbar zu machen. Doch oft fehlen präzise oder harmonisierte Daten – sei es durch uneinheit-liche Erfassungsmethoden, föderale Strukturen oder die zunehmende Dezentralisierung des Energiesystems. Diese Lücken erschweren faktenbasierte Entscheidungen und eine transparente öffentliche Debatte. *Wo und warum bestehen Datenlücken? Welche Strategien haben sich bewährt, um sie zu schließen? Wie lassen sich komplexe Energiedaten journalistisch aufbereiten?* In unserem Workshop stellen wir praxisnahe Strategien zur Schließung von Datenlücken in der Energiewende vor und diskutieren innovative journalistische Ansätze, die dezentraler Energiedaten transparent aufbereiten. Vier Impulsvorträge liefern praxisnahe Einblicke: - **Datenlücken in der Energiewende: Überblick und politische Relevanz** *Dr. Anne Berner, Deutsche Energie-Agentur* Einführung in zentrale Datenlücken entlang der politischen Steuerung der Energiewende: Wo fehlen In-formationen, welche Auswirkungen hat das und welche Lösungen sind denkbar? - **Goal100: Digitales Fortschrittsbarometer für den Windenergieausbau in Deutschland** *Bahne Carstensen, Goal100/ProjectTogether* Mit Goal100 wurde durch detektivische Datensuche in föderalen Strukturen ein Dashboard geschaffen, das den Windenergieausbau erstmals umfassend und aktuell sichtbar macht. Die Plattform bietet eine datenbasierte Prognose bis 2030 und ermöglicht es, Engpässe, Genehmigungsprozesse und regionale Unterschiede präzise zu analysieren. - **Energiewende greifbar machen: Personas für eine soziale Klimapolitik** *Frederik Digulla, Sozialklimarat* Mithilfe der kommerziellen Gebäudedatenbank von infas 360 wurden sozioökonomische Merkmale mit Mikrodaten zu Gebäuden verknüpft, um soziale Gruppen in der Wärmewende sichtbar zu machen. Die entwickelten 16 Personas geben den Energiewendedaten ein lokales, lebensnahes Gesicht und zeigen, wie datenbasierte Kommunikation sozial gerechte Lösungen fördern kann. - **Energiedaten im Journalismus: Best Practices zur Visualisierung und Kommunikation** *Christian Endt, Stellvertretender Leiter des Ressorts Daten und Visualisierung von ZEIT ONLINE* Wie lassen sich verstreute Energiedaten recherchieren, strukturieren und für ein breites Publikum zugänglich machen? Anhand von Beispielen wie dem ZEIT Energy Monitor zeigt der Impuls auf, wie datenjournalistische Ansätze Transparenz schaffen und zur faktenbasierten Energiewende-Debatte beitragen. **Interaktive Diskussion & Austausch** Im Anschluss an die Impulsvorträge diskutieren die Teilnehmenden gemeinsam: - In welchen politischen und regulatorischen Bereichen der Energiewende gibt es besonders gravierende Datenlücken und wie können diese geschlossen werden? - Welche Herausforderungen bestehen bei der Schließung von Datenlücken in der Energiewende - Welche Formate und Werkzeuge eignen sich zur Aufbereitung und Vermittlung von fragmentierten Energiedaten? PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/ZWPPYE/ Seminarraum 1 (oben) Frederik Digulla Bahne Carstensen Dr. Anne Berner PUBLISH WDGNJY@@25.scicar.de

-WDGNJY

Lass KI-Agents die Arbeit machen: Daten aus Text & Bild extrahieren und anreichern. de

20250905T163000 20250905T170000 0.03000

Lass KI-Agents die Arbeit machen: Daten aus Text & Bild extrahieren und anreichern.

Dieser Workshop zeigt, wie man mit LLM-Agents unstrukturierte Daten aus Texten und Grafiken automatisiert ausliest und anreichert. Wir schauen uns an, wie man mithilfe des Agent-Frameworks [PydanticAI](https://ai.pydantic.dev/) - Entitäten und Zahlenwerte aus Fließtext extrahiert, - Daten kategorisiert, - Daten aus komplex strukturierten Grafiken einliest, und jeweils das gewünschte Zielformat präzise definiert. Agents erlauben es dabei, natürliche Sprachverarbeitung, OCR-Fähigkeit und Webrecherche automatisiert zu kombinieren. Arbeitsschritte, die händisch eine Ewigkeit dauern würden, lassen sich so massiv beschleunigen. **Voraussetzungen:** - Kenntnisse in Python und Pandas, Erfahrung mit Jupyter Notebooks oder Google Colab - wenn ihr lokal mitmacht: Python 3.10+, Pandas und PydanticAI - optional ein API-Key für ChatGPT/OpenAI, Claude/Anthropic oder Gemini **Lernziele:** Nach Abschluss der Session können Teilnehmer:innen skriptbasiert eigene LLM-Agents erstellen, die aus un- und halbstrukturierten Quellen wie Texten und Bildern strukturierte Daten extrahieren und bei Bedarf mit online recherchierten Informationen anreichern. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/WDGNJY/ Seminarraum 1 (oben) Marcel Pauly PUBLISH KEP3YA@@25.scicar.de

-KEP3YA

Von Daten zur RAG: Ein Praxiseinblick in die Entwicklung RAG basierter Chatbots de

20250905T170000 20250905T173000 0.03000

Von Daten zur RAG: Ein Praxiseinblick in die Entwicklung RAG basierter Chatbots

Jeder, der schon einmal ChatGPT oder ähnliche Chatbots benutzt hat, kennt das Problem: Die Antwort klingt überzeugend, ist aber faktisch falsch – sogenannte „Halluzinationen“. Eine Möglichkeit Halluzinationen zu reduzieren bietet der Retrieval-Augmented Generation (RAG) Ansatz: Dafür wird die KI mit selektierten Informationen aus einer eigenen Wissensbasis angereichert. Das Ergebnis sind generierte Antworten, deren Aussagen direkt aus der externen Quelle abgeleitet und dadurch faktisch besser überprüfbar sind. Gerade im daten- und wissenschaftsjournalistischen Kontext, wo Fakten und korrekte Quellenangaben entscheidend sind, bietet das RAG Verfahren ein enormes Potenzial. Egal ob bei der automatisierten Recherche, Faktenprüfung oder der gezielten Auswertung riesiger Textmengen: Ein gut eingerichtetes RAG-System hilft Journalist:innen, Daten mit Hilfe von KI sinnvoll zu nutzen und zuverlässig in ihren Arbeitsalltag zu integrieren. Im Rahmen des Workshops „Von Daten zur RAG“ soll praxisnah aufgezeigt werden, wie Redaktionen und Newsrooms ein eigenes RAG-System von Grund auf entwickeln, testen und schrittweise optimieren können. Der Schwerpunkt liegt dabei auf folgenden Bereichen: **Aufbau einer eigenen Wissensbasis** Wie können redaktionelle Inhalte (Artikel, Reportagen, Interviews) effizient aufbereitet und in eine durchsuchbare Datenbank überführt werden? **Generierung synthetischer Testdaten** Wie erstellt man mithilfe von LLMs aus dem vorhandenem redaktionellem Content einen Testdatensatz (Frage-Antwort-Paare), um das KI-System objektiv bewerten zu können? **Aufsetzen eines „naiven“ RAG-Systems**: Demonstration, wie ein erster, einfacher Prototyp mit grundlegenden Kompontenten (Vektorsuche, Kontexteinbettung, Textgenerierung) eingerichtet werden kann. Wie sehen die ersten Ergebnisse aus? **Definition sinnvoller Metriken** Anhand welcher konkreter Kriterien (Halluzinationsrate, Faktentreue, Verständlichkeit, Antwortrelevanz) soll die Qualität eines RAG-Systems evaluiert werden? **Systematische Verbesserung des Systems** Welche Methoden kann man nutzen, um die Performance des Systems zu verbessern (z.B. Optimierung der Suchfunktion, Kontextmanagement, Prompt Engineering)? Wir vergleichen systematisch die Ergebnisse mit dem naiven System. Ziel des Workshops ist es, den Teilnehmer*innen einen ersten systematischen Einblick zu geben, wie RAG-Ansätze praktisch implementiert und evaluiert werden können, um so verlässlichere KI-Lösungen für die journalistische Praxis zu schaffen. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/KEP3YA/ Seminarraum 1 (oben) Mani Erfanian Abdoust PUBLISH MVLTWW@@25.scicar.de

-MVLTWW

Vibe Coding - interaktiv de

20250905T113000 20250905T123000 1.00000

Vibe Coding - interaktiv

In der Session "Vibe Coding - interaktiv" wird gezeigt, wie Programmieren mit AI aussehen kann. Die Teilnehmenden erhalten die Möglichkeit, mithilfe des Cursor Editors eine Website allein durch Prompts zu erstellen. Dabei wird interaktiv gearbeitet: Teilnehmende können eigene Ideen einbringen, die direkt live umgesetzt werden. Dieser Workshop soll nicht nur die einfache Nutzung und die kreativen Möglichkeiten darstellen, sondern auch die Grenzen aufzeigen. Wird der resultierende Code immer sauber und wartungsfreundlich sein? Wir diskutieren die Stärken und Schwächen dieser Methode und bieten praktische Einblicke, welche Aspekte bei der Nutzung solcher Tools bedacht werden sollten. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/MVLTWW/ Seminarraum 2 (unten) Camillo Sulzer Linus Netze PUBLISH ETJE3C@@25.scicar.de

-ETJE3C

Wenn die Daten nicht kommen, holen wir sie uns? Wie man fehlende und lückenhafte lokale Behördendaten doch noch nutzbar macht de

20250905T133000 20250905T143000 1.00000

Wenn die Daten nicht kommen, holen wir sie uns? Wie man fehlende und lückenhafte lokale Behördendaten doch noch nutzbar macht

Wie lässt sich datenjournalistisch lokal recherchieren, wenn amtliche Daten fehlen oder schwer zugänglich sind? In einem Werkstattbericht erzählen wir, wie wir trotz Widerständen an lokalpolitisch relevante Daten kommen – sei es etwa zu intransparenten Grundstückspreisen, politischen Vorgängen in Berlin, Unterrichtsausfall oder Kleingärten. Dabei soll es insbesondere um ganz konkrete Recherchewege gehen - vom Scraping lückenhafter PDFs über Grundbuchauswertungen, das manuelle Klassifizieren von Rohdaten bis hin zur KI-gestützten Datenbereinigung und zur interdiszplinären Zusammenarbeit mit Wissenschaftler*innen - und darum, wie manchmal aus den Datenlücken selbst Geschichten entstehen. Welche Lösungen haben wir gefunden und welche Herausforderungen bestehen noch immer? Aus unserer täglichen Arbeit teilen wir in einem kurzen Impulsvortrag Erfahrungen, Tipps und Fails. Im Anschluss wollen wir gemeinsam diskutieren, wie man fehlende und unzugängliche Daten im Lokalen findet, ergänzt, doch noch bekommt - und welche Grenzen es gibt. Diese Session bezieht sich auf den Workshop "Parlamentsdaten & KI: Wie moderne Technologien technische Hürden absenken können" dient als inhaltliche Einführung für ihn. Im zweiten Teil wollen wir dann gemeinsam ausprobieren, neue Informationen man aus den Protokollen aller Landesparlamente zu ziehen. PUBLIC CONFIRMED Anderes Format https://25.scicar.de/scicar25/talk/ETJE3C/ Seminarraum 2 (unten) Nina Breher PUBLISH WZRWRG@@25.scicar.de

-WZRWRG

Parlamentsreden analysieren: Wie moderne Technologien wie KI technische Hürden absenken können de

20250905T143000 20250905T153000 1.00000

Parlamentsreden analysieren: Wie moderne Technologien wie KI technische Hürden absenken können

Parlamentsprotokolle enthalten einen Schatz an Informationen für die Regional- und Lokalberichterstattung – doch bisher waren sie nur schwer systematisch zugänglich. **Wie können wir zehntausende Protokolle gleichzeitig analysieren** und dabei lokale Geschichten entdecken, die in der Masse untergehen würden? #### Vom PDF zur Story: Systematische Analyse parlamentarischer Debatten Mit der StateParl-Datenbank stehen erstmals **14 Millionen Redebeiträge aus allen 16 Landesparlamenten** für datengetriebene Recherchen zur Verfügung. Text-as-Data-Methoden und moderne KI-Tools verwandeln diese Textmengen in konkrete journalistische Erkenntnisse – und das ohne tiefe Programmierkenntnisse. #### Mögliche Analyseansätze - **Hotspot-Analyse**: Welche Kommunen und Regionen werden in den Landtagen am häufigsten diskutiert? Warum spricht Sachsen-Anhalt öfter über Windkraft als Bayern – und was bedeutet das für lokale Redaktionen? - **Themen-Tracking**: Wann wird ein lokales Problem zur Landesdebatte? Wie verbreiten sich politische Trends zwischen Bundesländern und Gemeinden? - **Politiker:innen-Radar**: Welche Abgeordneten bringen lokale Themen auf die Agenda? Wer sind die regionalen Meinungsmacher:innen? #### Hands-on Methoden für die Praxis Im Workshop erarbeiten wir Techniken, um aus parlamentarischen Debatten konkrete Datenstories zu entwickeln. Teilnehmende bringen ihre Recherchefragen mit – gemeinsam finden wir die Antworten in den Daten. Ob Schulpolitik, Klimaschutz oder Wohnungsmarkt: **praktische Übungen** zeigen, wie aus großen Textmengen investigative Geschichten werden. #### Für wen ist das? **Keine Programmierkenntnisse erforderlich!** Moderne KI-Tools machen komplexe Textanalysen zugänglich. Bereits grundlegende Coding-Kenntnisse eröffnen jedoch zusätzliche Möglichkeiten. Ideal für: - Lokaljournalist:innen, die systematischer recherchieren möchten - Datenjournalist:innen auf der Suche nach neuen Quellen - Alle, die Politik datengetrieben verstehen wollen Am Ende nehmen Sie praktisches Wissen über StateParl, bewährte Strategien und frische Story-Ideen mit – sowie den Kontakt zu den StateParl-Entwicklern für weiterführende Fragen und Kooperationen. *Dieser Workshop baut thematisch auf der Session „Wenn die Daten nicht kommen, holen wir sie uns? Wie man fehlende und lückenhafte lokale Behördendaten doch noch nutzbar macht“ auf. Er zeigt, wie exemplarisch, wie eine Datenlücken geschlossen wurde und diese Daten journalistisch erschlossen werden können* PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/WZRWRG/ Seminarraum 2 (unten) Eric Beltermann PUBLISH WHZBJY@@25.scicar.de

-WHZBJY

Analyse von politischen Trends: Wie wir Abstimmungsergebnisse des Europaparlaments transparenter machen de

20250905T163000 20250905T173000 1.00000

Analyse von politischen Trends: Wie wir Abstimmungsergebnisse des Europaparlaments transparenter machen

Wir präsentieren HowTheyVote.eu, eine Datenbank, die die Ergebnisse der namentlichen Abstimmung im Europäischen Parlament einfach zugänglich und durchsuchbar macht. Wir gehen darauf ein, welche Daten verfügbar sind und wie damit gearbeitet werden kann, anhand von Demos und konkreten Beispielen von Berichterstattung. Außerdem geben wir einen Überblick über die verschiedenen offiziellen und externen Datenquellen für Informationen zu EU-Gesetzgebungsprozessen und Aktivitäten im Europäischen Parlament. Dabei gehen wir auch darauf ein, wie wir diese für unser Projekt nutzen und Daten aus verschiedenen Quellen verbinden. Das Europäische Parlament ist die einzige direkt demokratisch gewählte EU-Institution. Daher ist das Abstimmungsverhalten der Abgeordneten von besonderem Interesse. Seit den Wahlen im letzten Jahr ist die Zahl der (extrem) rechten Abgeordneten im Parlament deutlich gestiegen. Das macht es umso wichtiger, die Geschehnisse im Parlament im Auge zu behalten. Zwar veröffentlicht das Parlament auf seiner Website namentliche Abstimmungsergebnisse und Plenarprotokolle. Trotzdem kann es schwierig sein, herauszufinden, worüber die Abgeordneten genau abgestimmt haben oder wie eine bestimmte Abstimmung ausgegangen ist, weil die Daten über verschiedene Quellen verstreut sind, in unterschiedlichen Formaten vorliegen und zu verschiedenen Zeitpunkten zur Verfügung gestellt werden. Mit HowTheyVote.eu betreiben wir seit 2020 eine vollständig frei nutzbare Webseite, auf der wir Informationen zu Abstimmungen und Abgeordneten aus verschiedensten offiziellen Quellen bündeln. Darüber hinaus stellen wir unsere gesamte Datenbank und auch den Quelltext der Software unter einer offenen Lizenz zur Weiterverwendung bereit. In unserer Session lernen Teilnehmerinnen wie sie: - Offizielle und externe Quellen, die Informationen über Verfahren im Europäischen Parlament enthalten, finden und navigieren; - HowTheyVote.eu nutzen, um Abstimmungen zu bestimmten Themen zu finden und Abstimmungsergebnisse für einzelne Abstimmungen und Änderungsanträge einzusehen; - Mit der HowTheyVote.eu-Datenbank und der API arbeiten, um sie für ihre eigenen Recherchen und Analysen zu nutzen. Wir kombinieren Vortragselemente mit interaktiven Elementen und Live-Coding zum mitmachen. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/WHZBJY/ Seminarraum 2 (unten) Linus Hagemann Till Prochaska PUBLISH YB9AQ9@@25.scicar.de

-YB9AQ9

tba de

20250905T113000 20250905T123000 1.00000

tba

Hier wird eine Beschreibung stehe PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/YB9AQ9/ Seminarraum 3 (hinten) Fabian Hruschka PUBLISH WZDHVK@@25.scicar.de

-WZDHVK

Datenspuren der Desinformation: Die Analyse-Frameworks der Defender-Community de

20250905T133000 20250905T143000 1.00000

Datenspuren der Desinformation: Die Analyse-Frameworks der Defender-Community

Formen der Informationsmanipulation wie Desinformation und manipulative Narrative sind eine Gefahr für den freien Diskurs in demokratischen Gesellschaften. Jenseits der Überprüfung von Informationen auf ihre Faktentreue bedeutet dies für die redaktionelle Arbeit, ein breiteres Spektrum von Manipulationstechniken einordnen zu können, um journalistische Qualität zu sichern und öffentlich über Manipulationsphänomene aufzuklären. In diesem Workshop vermitteln Timo Lenk und Julian Neylan (Alliance4Europe) Mechanismen der Informationsmanipulation mit einem Fokus auf manipulative Narrative und stellen Analyse-Frameworks aus der Defender-Community vor. Disarm-Framework: https://disarmfoundation.github.io/disarm-navigator/ OpenCTI: https://filigran.io/solutions/open-cti/ PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/WZDHVK/ Seminarraum 3 (hinten) Timo Lenk Julian Neylan PUBLISH Y8AGAN@@25.scicar.de

-Y8AGAN

Webscraping für Datenjournalist:innen: Hands-on workshop zum Extrahieren von Daten aus dem Internet de

20250905T143000 20250905T153000 1.00000

Webscraping für Datenjournalist:innen: Hands-on workshop zum Extrahieren von Daten aus dem Internet

In diesem Workshop lernen Datenjournalist:innen die Grundlagen des Webscrapings, um automatisiert Daten aus dem Netz zu extrahieren. Anhand praxisnaher Beispiele und Open-Source-Tools zeigen wir, wie sich strukturierte und unstrukturierte Daten effizient sammeln und für Recherchen nutzen lassen. Anfänger:innen erhalten eine Einführung, während Fortgeschrittene Tipps zur Umgehung technischer Hürden und zur rechtlichen Einordnung bekommen. Teilnehmer:innen sollten wenn möglich einen Laptop mit R oder Python installiert mitbringen und entsprechende Vorkenntnisse in einer dieser Programmiersprachen wären wünschenswert, um direkt mit dem scrapen starten zu können. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/Y8AGAN/ Seminarraum 3 (hinten) Dr. Henrike Weinert Kai-Robin Lange Lisa-Marie Eckardt PUBLISH GTG8JT@@25.scicar.de

-GTG8JT

Zwischen Hinterbühne und Marktplatz. Auf der Suche nach einem Kompass für KI-Richtlinien zum medialen Umgang mit KI. de

20250905T163000 20250905T173000 1.00000

Zwischen Hinterbühne und Marktplatz. Auf der Suche nach einem Kompass für KI-Richtlinien zum medialen Umgang mit KI.

Wie werden journalistische Werte im Kontext von KI ausgehandelt? Welche Konstanten gibt es? Welche Punkte sind Anlass für eine fortwährende Anpassung? In diesem Workshop / Podium / World Café geht es um ethische Leitplanken und journalistische Werte im Kontext von KI und deren Aushandlung: Was ist unerlässlich? Was kann erst Work-in-Progress sein? Wem ist Verantwortung zuzuweisen? Wofür und auf welcher Basis? PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/GTG8JT/ Seminarraum 3 (hinten) Prof. Dr. Marlis Prinzing PUBLISH 3N8GH3@@25.scicar.de

-3N8GH3

Data Stories of Migration: What's left behind and what gets recorded en

20250906T094500 20250906T103000 0.04500

Data Stories of Migration: What's left behind and what gets recorded

In the space between journalism and science communication, stories of migration are shaped not just by what happens, but by what gets counted, coded, or ignored. Drawing on her experience as an investigative journalist and current work on a migration docuseries, as well as her role as the science communication officer for the Algorithmic Fairness for Asylum Seekers and Refugees (AFAR) project, Ida Reihani explores how data-driven systems influence public narratives and policy decisions. From algorithmic forecasts to empty data fields, she traces how the drive for clarity can sometimes obscure the full picture and how absence, too, can be a powerful part of the story. This keynote invites journalists and researchers to become co-storytellers, not just of facts, but of what they mean. PUBLIC CONFIRMED Anderes Format https://25.scicar.de/scicar25/talk/3N8GH3/ Saal Ida Reihani PUBLISH 7CD3GA@@25.scicar.de

-7CD3GA

Boost your Health Reporting: Wie wir mit Hilfe von KI die Qualität des Medizinjournalismus verbessern können de

20250906T104500 20250906T112000 0.03500

Boost your Health Reporting: Wie wir mit Hilfe von KI die Qualität des Medizinjournalismus verbessern können

Im Rahmen der SciCAR möchten wir unser innovatives Projekt "Medien-Doktor Assistance" vorstellen - eine App, mit deren Hilfe Journalist*innen die Qualität medizinjournalistischer Beiträge nach den bewährten Medien-Doktor-Qualitätskriterien automatisiert prüfen können. Damit soll die App dabei unterstützen, Schwachpunkte in medizinjournalistischen Artikeln aufzuspüren und die Qualität der Beiträge zu verbessern. Bei der Testung der App haben wir eng mit den Wissen-Ressorts von NDR Info und Tagesschau sowie auch der Nürnberger Zeitung zusammengearbeitet. Als zusätzliche, neue Kooperationspartner für die weitere Testung und Weiterentwicklung sind der Tagesspiegel und die Apotheken Umschau im Gespräch. Im Rahmen unserer Veranstaltung möchten wie über die App und ihre Entwicklung berichten und im Detail auf das methodische Vorgehen und die verwendeten Modelle berichten: -Ein Random Forest Klassifikationsmodell, das speziell für diesen Zweck basierend auf 240 Trainingsbeispielen entwickelt und trainiert wurde. -Das Sprachmodell GPT4 von OpenAI, das mit einem ausführlichen Prompt und Wissen über die Medien-Doktor-Kriterien ausgestattet ist. Beide Modelle haben in verschiedenen Tests eine verlässliche Übereinstimmung mit der Bewertung von medizinjournalistischen Beiträgen durch menschliche Gutachter:innen des Projekts Medien-Doktor gezeigt. Die Assistance-App des Medien-Doktors ist ein gemeinsames Projekt der Lehrstühle für Wissenschaftsjournalismus, Wirtschaftspolitischen Journalismus und der Fakultät Statistik an der TU Dortmund. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/7CD3GA/ Saal Dr. med. Astrid Viciano PUBLISH KBCLQX@@25.scicar.de

-KBCLQX

Bewertung der Datenqualität von Online-Umfragen: Eine explorative Untersuchung der Potenziale von Large-Language Models zur Detektion von unzureichendem Antwortaufwand de

20250906T112500 20250906T120000 0.03500

Bewertung der Datenqualität von Online-Umfragen: Eine explorative Untersuchung der Potenziale von Large-Language Models zur Detektion von unzureichendem Antwortaufwand

## Einführung Online-Umfragen sind in der empirischen Forschung als Instrument zur Datenerhebung weit verbreitet. Um Teilnehmer für Online-Umfragen zu erreichen, gewinnen Crowdsourcing-Plattformen wie Amazon Mechanical Turk oder Prolific zunehmend an Bedeutung. Solche Plattformen ermöglichen eine schnelle Datenerhebung und den Zugang zu oft diverseren Stichproben als herkömmliche Rekrutierungsmethoden. Es besteht jedoch die Gefahr, dass Teilnehmende hauptsächlich aus äusseren Anreizen wie beispielsweise der Vergütung teilnehmen und die Fragen daher unachtsam beantworten. Dieses als „Insufficient Effort Responding“ (IER) bekannte Phänomen kann die Untersuchungsergebnisse erheblich verzerren. ## Erkennung und Kontrolle von Insufficient Effort Responding Zur Erkennung und Kontrolle von IER wurden verschiedene Ansätze entwickelt. Beispielsweise testen instruierte Antworten, ob Teilnehmende Anweisungen befolgen, während statistische Verfahren Unstimmigkeiten in Antwortmustern aufdecken. Letztere erfordern jedoch häufig komplexe Analysen oder spezifische Datenvoraussetzungen. Besonders herausfordernd ist die Überprüfung offener Antworten, da diese meist manuell beurteilt werden müssen und stark vom jeweiligen Kontext abhängen, was besonders bei grösseren Stichproben erheblichen Aufwand bedeutet. Large Language Models (LLMs) können dabei unterstützen, doch ihre Zuverlässigkeit bei der Erkennung von IER ist noch unklar. ## Ziel des Workshops In diesem Workshop werden wir gemeinsam mit den Teilnehmenden explorieren, inwieweit sich LLMs zur Identifikation von IER eignen. Anhand öffentlich zugänglicher Datensätze sowie grösseren Datensätze aus unserer eigenen Forschung wollen wir gemeinsam erarbeiten, wie gut LLMs im Vergleich zu menschlichen Einschätzungen und statistischen Kennwerten abschneiden. ## Ablauf 1. **Einführung**: Der Workshop beginnt mit einer kurzen Einführung in die Thematik der Datenqualität in Online-Untersuchungen und den Herausforderungen von IER. Wir stellen gängige Techniken vor, beleuchten deren Vor- und Nachteile und entwickeln gemeinsam erste Hypothesen zu den Potenzialen und Schwächen von LLMs in diesen Aufgaben. 2. **Praktische Übung**: Anschliessend erhalten die Teilnehmenden einen Datensatz mit offenen Antworten aus einer früheren Studie, die bereits manuell bewertet wurden. In Gruppenarbeit erfolgt zunächst eine eigene Bewertung, die als zusätzliche Baseline dient. Im Anschluss vergleichen wir die aktuellen Einschätzungen mit früheren Ergebnissen, den Bewertungen eines LLMs und statistischen Kennzahlen. Ziel ist es, systematische Übereinstimmungen oder Abweichungen herauszuarbeiten. 3. **Reflexion und Diskussion**: Abschliessend folgt eine gemeinsame Reflexion darüber, unter welchen Bedingungen LLMs eine sinnvolle Ergänzung oder gar Alternative zu etablierten Verfahren darstellen könnten, wie sich mögliche Fehler systematisch erklären lassen und welche Prompt-Strategien zu besseren Ergebnissen führen könnten. Mit diesem Workshop möchten wir praxisnah ermitteln, ob und unter welchen Bedingungen LLMs die Identifikation von IER sinnvoll unterstützen können. Dabei werden systematisch Stärken, Schwächen und Optimierungsmöglichkeiten herausgearbeitet. PUBLIC CONFIRMED Podiumsdiskussion https://25.scicar.de/scicar25/talk/KBCLQX/ Saal Nick von Felten Johannes Schöning PUBLISH U9BAVK@@25.scicar.de

-U9BAVK

Electify: Mit KI Wähler:innen helfen, sich vor der Europa- und Bundestagswahl zu informieren de

20250906T121500 20250906T125000 0.03500

Electify: Mit KI Wähler:innen helfen, sich vor der Europa- und Bundestagswahl zu informieren

Wahltag. Und welche Partei soll ich wählen? Wer sich diese Frage stellt, dem kann Electify helfen sich zu informieren. Die Fülle an Wahlinformationen kann überwältigend sein, mit Electify können sich Wähler:innen eine Übersicht verschaffen. In einem interdisziplinären Team aus Data Scientists hat Anna Neifer mit zwei Kollegen eine Web-App entwickelt, die Retrieval-Augmented Generation (RAG) und ein Large Language Model (LLM) nutzt. Mithilfe dieser Architektur werden politische Dokumente schnell zusammengefasst. Nutzer:innen geben ihre Frage in der Web-App ein und erhalten prägnante Zusammenfassungen von jeweils sechs Parteipositionen, die sich miteinander vergleichen lassen. In ihrem Vortrag gewährt Anna Neifer einen Blick hinter die Kulissen von Electify. Anna Neifer erläutert die technische Architektur, die zentralen Herausforderungen während der Entwicklung, Nutzererfahrungen und was das Team von Electify beim nächsten Mal anders machen würde. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/U9BAVK/ Saal Anna Neifer PUBLISH TY7EYK@@25.scicar.de

-TY7EYK

Von analog zu digital – wie wir aus Ski-Atlanten einen Datensatz gemacht haben de

20250906T125500 20250906T133000 0.03500

Von analog zu digital – wie wir aus Ski-Atlanten einen Datensatz gemacht haben

Ausdrucke aus IFG-Anfragen, alte Bücher oder PDFs ohne Texterkennungs-Overlay – immer wieder liegen wertvolle Daten gleichzeitig offen, sind aber trotzdem maschinell nicht nutzbar. Sie müssen also aufbereitet werden: Von gedrucktem Papier über digitale Scans bis zum aufgeräumten Datensatz ist es ein weiter Weg. Verschiedene Tools können helfen, diese Datenschätze zu heben. Welche das sind, wie sie funktionieren und wo die Grenzen liegen, haben wir im Rahmen unserer Recherche zur Industrialisierung von Skigebieten ausprobiert. Dafür mussten wir Daten aus Ski-Atlanten, also stapelweise Papier in dicken Büchern, aus dem Archiv des ADAC in immer wieder anderen Layouts seit den 1980er Jahren extrahieren und am Ende in eine Tabelle überführen. In der Session stellen wir den Arbeitsprozess von den analogen Daten bis zur digitalen Analyse vor, was wir über Werkzeuge und Arbeitsabläufe gelernt haben: Wann lohnen sich kommerzielle Scan-Firmen? Was sind gute (KI-)Werkzeuge für die Texterkennung und Textextraktion? Wo ist tatsächlich Handarbeit gefragt? Und wie hält man das alles zusammen? **Crossmediale Ausspielung der Geschichte:** * Online-Text: https://www.br.de/nachrichten/bayern/hoeher-schneller-kuenstlicher-skigebiete-und-die-klimakrise,UeV4AjQ * Interview-Podcast: https://www.ardaudiothek.de/sendung/11km-der-tagesschau-podcast/12200383/ * Hintergrund-Podcast: https://www.ardaudiothek.de/episode/der-funkstreifzug/hightech-und-klimakrise-wie-skigebiete-in-bayern-und-oesterreich-um-ihre-zukunft-kaempfen/br24/14241015/ * Fernsehen: https://www.ardmediathek.de/video/kontrovers/was-unterscheidet-bayern-von-oesterreich/br/Y3JpZDovL2JyLmRlL2Jyb2FkY2FzdC9GMjAyNFdPMDE1NjEwQTAvc2VjdGlvbi8zYWVkNjY0Yi00ZWFkLTQyZTMtYjBjZC00MGI3NDZhMGNhMTI PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/TY7EYK/ Saal Julia Barthel Constanze Bayer PUBLISH BQTKTW@@25.scicar.de

-BQTKTW

Bewegte Daten – Best und Worst Practice für Datenvisualisierung im Video de

20250906T104500 20250906T120000 1.01500

Bewegte Daten – Best und Worst Practice für Datenvisualisierung im Video

Datenvisualisierungen im Online- und Print-Bereich haben sich in den letzten Jahren professionalisiert: Standards und Best-Practice-Beispiele sind etabliert und werden weithin genutzt. Im Bereich Bewegtbild ist das anders: Entweder werden statistische Grafiken erläutert (Wahlen) oder kurze Animationssequenzen in zB klassischen Magazinsendungen verwendet. Dass Daten und ihre Darstellung die Hauptlast des Storytellings tragen, ist in Videos die absolute Ausnahme, egal ob im linearen Fernsehen oder in Social Media. Wir haben Beispiele gesammelt und Ideen für Strategien gesammelt, wie Daten auch im Video besser zur Geltung kommen. Diese Erkenntnisse wollen wir teilen: Was sind Best Practices für Daten im Film? Welche Standards aus interaktiven Grafiken lassen sich übertragen? Was ist im Film anders als im Netz? Unser Ziel ist es, den Teilnehmenden Ideen für Datenvideos und Einblicke in die besonderen Vorteile und Hürden beim Gestalten von Filmen und Videos zu geben, aber ihnen auch zu vermitteln, dass sich der Aufwand lohnen kann, um neue Zielgruppen für aufwendige Daten-Recherchen zu gewinnen. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/BQTKTW/ Seminarraum 1 (oben) Constanze Bayer Francesca Morini PUBLISH H8XGEB@@25.scicar.de

-H8XGEB

Investigative journalism with satellite images: a beginner's guide to Google Earth Engine en

20250906T121500 20250906T133000 1.01500

Investigative journalism with satellite images: a beginner's guide to Google Earth Engine

**Have you ever found yourself wanting to use satellite imagery in your investigation but unsure where to start without relying on expensive subscription services?** Satellite images can help journalists investigate what is happening at a location at different points in time. Or they uncover hidden changes in the environment by capturing light waves not visible to the human eye. These techniques are applicable to a wide range of environmental investigations and OSINT tasks. Google Earth Engine is an open-access, cloud-based platform for analyzing and visualizing satellite imagery and a wide range of geospatial datasets. It allows users to monitor environmental changes and run large-scale analyses without needing powerful local computers. This workshop will cover: - How to set up Google Earth Engine (GEE) - Getting started with the GEE code editor and using built-in datasets - Accessing and viewing free satellite images from Landsat and Sentinel-2 missions - Understanding the basics of multispectral imaging and using false-color images to see more This session is suitable for remote sensing beginners, but a basic familiarity with any programming language is a prerequisite. Note: you will get the most out of this workshop if you register your Google Account for Earth Engine access ahead of the workshop - it is free but takes a few days to be approved. You will still be able to participate in this workshop either way: [Register for Google Earth Engine](https://console.cloud.google.com/earth-engine/configuration/register?inv=1&invt=AbzORg&project=gleaming-glass-298416) PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/H8XGEB/ Seminarraum 1 (oben) Eva Richter PUBLISH HXKLMQ@@25.scicar.de

-HXKLMQ

Recherche in (ganz unterschiedlichen) Datenleaks de

20250906T104500 20250906T112000 0.03500

Recherche in (ganz unterschiedlichen) Datenleaks

Geleakte Daten sind immer wieder ein wichtiger Ausgangspunkt für Recherchen. Sie ermöglichen oft Einblicke in sonst verschlossene Welten – und nicht selten setzt ein Whistleblower viel aufs Spiel, um Informationen von öffentlichem Interesse mit den Rechercheuren zu teilen. Doch wie findet man sich in den internen Unterlagen eines fremden Unternehmens zurecht, wie in den geheimen Dokumenten von Hackern, wie in Audioaufnahmen von Telefonaten mutmaßlicher Betrüger:innen? Die Beispiele zeigen schon: Es gibt sehr unterschiedliche Arten von Datenleaks. Manche bestehen aus unstrukturierten Daten, andere sind sehr strukturiert. Viele basieren hauptsächlich auf schriftlichen Dokumenten, einige aber auf Audio- oder Videoaufnahmen. Die einen sind in einer einzigen Sprache gehalten, andere in vielen verschiedenen Sprachen und Schriften. Und doch haben sich in der Praxis einige Leitlinien etabliert, die für fast alle Recherchen in Datenleaks gelten – und sehr hilfreich sein können. Zum Beispiel sollten Leaks vor dem eigentlichen Suchen sorgfältig vorbereitet werden, indem man sie in eine einheitliche Sprache übersetzt und durchsuchbar macht. Darüber hinaus ist es empfehlenswert, sich zu Beginn einen Überblick über die Struktur der Daten zu verschaffen, das kann die spätere Suche nach vielversprechenden Recherchesträngen enorm erleichtern. Wertvolle Tipps gibt es auch zum Suchen mit Operatoren und Schlagwortlisten. Und selbst dann, wenn man ein vielversprechendes Ergebnis entdeckt hat, steht man immer wieder vor derselben Herausforderung: Entweder, es gibt viel zu viele Treffer im Leak – oder aber viel zu wenige. Für den Umgang mit beiden Extremen haben sich aber in der Praxis hilfreiche Strategien etabliert. Ziel dieser Präsentation ist, eine praxisnahe Anleitung zur Recherche in Datenleaks an die Hand zu geben. Der Vortrag richtet sich an eine breite Zielgruppe, weshalb die allgemeinen Strategien anhand von Beispielen ganz unterschiedlicher Datenleaks erklärt werden sollen. PUBLIC CONFIRMED Podiumsdiskussion https://25.scicar.de/scicar25/talk/HXKLMQ/ Seminarraum 2 (unten) Sophia Baumann PUBLISH MYJKSN@@25.scicar.de

-MYJKSN

Werkstattbericht – Investigative Recherche trifft auf IT-Experiment de

20250906T112500 20250906T120000 0.03500

Werkstattbericht – Investigative Recherche trifft auf IT-Experiment

Wie funktioniert Zusammenarbeit von Investigativ-Reporter:innen und Wissenschaftler:innen? Was kann dabei herauskommen? Der Werkstattbericht von Journalist:innen des Saarländischen Rundfunks (SR) und Forschenden des Fraunhofer-Instituts für Angewandte und Integrierte Sicherheit (AISEC) stellt eine solche Zusammenarbeit vor – von Vorbereitung und Methodenfindung eines gemeinsamen Recherche-Experiments, über Durchführung bis hin zu den Ergebnissen. Gemeinsam ließen Reporter:innen und Forschende einen fragwürdigen IT-Dienstleister auffliegen. Sie konnten zeigen, wie der Anbieter offenbar seine Privatkunden täuschte – während er gleichzeitig als externer Dienstleister für Strafverfolgungsbehörden aus ganz Deutschland und dem Ausland aktiv war. Für ein eigens dafür aufgesetztes Recherche-Experiment hatten die AISEC-Wissenschaftler:innen Geräte präpariert, die die SR-Reporter:innen, als Privatkunden getarnt, bei dem Anbieter einschickten. Die Fehlerbilder der präparierten Geräte variierten von kleineren, häufig vorkommenden mechanischen Defekten bis hin zum bewusst herbeigeführten Totalschaden. Darüber hinaus hatten die Forschenden die Geräte mit versteckten Features versehen. Bei einem Gerät kam beispielsweise ein Streifen eines Negativ-Films für Foto-Kameras ins Spiel. Für zwei andere hatten die Fraunhofer-Expert:innen eigens eine App programmiert und versteckt aufgespielt. Diese sendete bspw. Informationen, sobald das Gerät ausgepackt und bewegt wurde. Die App lieferte schließlich entscheidende Hinweise und mit deren Hilfe konnte der Anbieter am Ende der Lüge überführt werden. Dies kombiniert mit neuerlichen Untersuchungen an der Hardware der Geräte ergab einen umfangreichen Eindruck bzgl. der Arbeitsweise des Anbieters. In dem Werkstattbericht stellen die Referent:innen Überlegungen, Vorgehen und Ergebnisse ihres Recherche-Experiments vor – ebenso wie Hürden und Hindernisse. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/MYJKSN/ Seminarraum 2 (unten) Caroline Uhl Katharina Bogad Andreas Korb PUBLISH EW8DAL@@25.scicar.de

-EW8DAL

Geheimakte Gesundheitsdaten: Der Kampf um Daten der Kassenärztlichen Vereinigungen de

20250906T121500 20250906T133000 1.01500

Geheimakte Gesundheitsdaten: Der Kampf um Daten der Kassenärztlichen Vereinigungen

Eine Recherche des SWR Data Lab macht deutlich, wie intransparent das deutsche Gesundheitssystem für Datenjournalist:innen ist. Monatelang haben wir versucht, an Daten zum 116117 Terminservice zu kommen. Dieser wird von den Kassenärztlichen Vereinigungen (KVen) organisiert, die in Deutschland für die Sicherstellung der ambulanten Versorgung der gesetzlich Krankenversicherten zuständig sind. Im September 2024 haben wir die ersten Anfragen verschickt. Nachdem wir monatelang immer wieder nachgehakt, unsere Auskunftsansprüche juristisch argumentiert, Klagen angedroht und IFG-Anfragen gestellt haben, ist das Ergebnis ernüchternd. Monate später stehen wir mit einem Bruchteil der angefragten Daten da. Systemischen Problemen und regionalen Unterschieden in der Gesundheitsversorgung, von denen Patient:innen und Expert:innen in Hintergrundgesprächen berichten, können wir damit kaum nachgehen. Der Kampf um die Daten ist teilweise absurd. Die KVen veröffentlichen in ihren Arztsuchen die Adressen von Arztpraxen. Fragt man nach den Rohdaten, wollen sie diese aber aus datenschutzrechtlichen Gründen nicht herausgeben. Die Kassenärztliche Bundesvereinigung, Zusammenschluss der KVen und Betreiberin der Website des 116117-Terminservice, veröffentlicht Berichte mit Grafiken zum Terminservice. Fragt man nach den Daten, heißt es: „Sie werden ums Abtippen leider nicht drum herum kommen.“ Auch Anfragen an die Landesministerien, die die Rechtsaufsicht über die KVen haben, gestalten sich schwierig. Das Ministerium für Soziales und Integration BW bittet mehrfach um Rückzug unseres IFG-Antrags zu seiner Kommunikation mit der KV BW. In RLP verweist man auf ein Drittbeteiligungsverfahren – man brauche erst die Zustimmung der KV RLP. Die Ministerien verweisen darauf, nur eine Rechtsaufsicht, keine Fachaufsicht über die KVen zu haben. Es scheint als könnten die KVen tun was sie wollen. Wir wollen Erfahrungen wie diese mit euch teilen und eure Geschichten hören: Welche Hürden habt ihr beim Arbeiten mit Gesundheitsdaten erlebt? Wir wollen überlegen und diskutieren, wie wir uns gegenseitig unterstützen und die Möglichkeiten des Presserechts und der Informationsfreiheitsgesetze besser nutzen können. PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/EW8DAL/ Seminarraum 2 (unten) Katharina Forstmair Stephanie Jauss PUBLISH CRWTBS@@25.scicar.de

-CRWTBS

Datenbanken der amtlichen Statistik - Aktuelle Neuerungen de

20250906T104500 20250906T120000 1.01500

Datenbanken der amtlichen Statistik - Aktuelle Neuerungen

Die drei großen Datenbanken der Statistischen Landesämter und des Statistischen Bundesamtes, Regionaldatenbank, Zensusdatenbank und Genesis-Online basieren auf derselben Technologie und haben in jüngster Vergangenheit umfangreiche Neuerungen erfahren. Wir berichten über die Inhalte der abschließend befüllten Zensusdatenbank, den Stand des Umstiegs auf die neue Nutzungsoberfläche von Genesis-Online als auch aktuelle Änderungen bei der API im Sommer 2025. Die Inhalte werden anhand von funktionsfähigem Programmcode zur automatisierten Nutzung vorgestellt. Ebenfalls wird auf die Statistikpakete R und Python eingegangen. https://github.com/StatistischesBundesamt/GENESIS-Online PUBLIC CONFIRMED Vortrag/Präsentation https://25.scicar.de/scicar25/talk/CRWTBS/ Seminarraum 3 (hinten) Michael Neutze PUBLISH 7VJ7XJ@@25.scicar.de

-7VJ7XJ

AI Support for Investigative Reporting: How Can AI Support the Data Workflows of Investigative Journalists? en

20250906T121500 20250906T133000 1.01500

AI Support for Investigative Reporting: How Can AI Support the Data Workflows of Investigative Journalists?

AI-powered tools can quickly process enormous amounts of data. They can mine relations and find patterns that humans might miss. However, they are black boxes, which makes it challenging to apply them in a trustworthy manner and to ensure accurate reporting with high source transparency. Our vision as Human-Computer Interaction and AI scholars is to empower journalists and to give them more control over automation. In this interactive workshop, we will present practical use cases where AI and automation could support investigative reporters and underline the challenges journalists must keep an eye on. We want to equip reporters with more structure to automate certain aspects of their investigations. For this, we combine Programming-by-Demonstration (PbD) with the power of large language models. PbD enables end users to automate tasks without programming experience and makes the underlying automation processes transparent. We report our findings on potential applications in journalists' workflows and the practical utility of such automation tools based on in-depth interviews with investigative and data journalists. We further explain how to adapt these automation systems to the way journalists work. In this interactive workshop, we invite participants to collaborate with us to conceptualize, design, and shape the features of an automated system created by journalists for journalists. PUBLIC CONFIRMED Workshop https://25.scicar.de/scicar25/talk/7VJ7XJ/ Seminarraum 3 (hinten) Besjon Cifliku