Webscraping für Datenjournalist:innen: Hands-on workshop zum Extrahieren von Daten aus dem Internet
05.09.2025 , Seminarraum 3 (hinten)
Sprache: Deutsch

In diesem Workshop lernen Datenjournalist:innen die Grundlagen des Webscrapings, um automatisiert Daten aus dem Netz zu extrahieren. Anhand praxisnaher Beispiele und Open-Source-Tools zeigen wir, wie sich strukturierte und unstrukturierte Daten effizient sammeln und für Recherchen nutzen lassen. Anfänger:innen erhalten eine Einführung, während Fortgeschrittene Tipps zur Umgehung technischer Hürden und zur rechtlichen Einordnung bekommen. Teilnehmer:innen sollten wenn möglich einen Laptop mit R oder Python installiert mitbringen und entsprechende Vorkenntnisse in einer dieser Programmiersprachen wären wünschenswert, um direkt mit dem scrapen starten zu können.

Kai-Robin Lange ist wissenschaftlicher Mitarbeiter und Promovierender am Lehrstuhl für Wirtschafts- und Sozialstatistik der TU Dortmund. In seiner Forschung an der Fakultät für Statistik beschäftigt er sich unter anderem mit Text-Mining-Methoden, etwa zur Auswertung politischer Debatten, Reden und Dokumente.

Dr. Henrike Weinert hat an der Technischen Universität Dortmund Statistik studiert und war im Anschluss wissenschaftliche Mitarbeiterin am Institut für mathematische Statistik und industrielle Anwendungen (MSInd), wo sie 2009 promovierte. Nach weiteren vier Jahren an der Fakultät Statistik wechselte sie an das Institut zur Erforschung und Entwicklung des Mathematikunterrichts (IEEM).
Seit Juli 2020 ist sie wissenschaftliche Mitarbeiterin am TU Dortmund Center for Data Science and Simulation DoDaS (vormals Dortmund Data Science Center). Dort ist sie Ansprechpartnerin für die Data Literacy Education im Programm Data Competence Network (DaCoNet) und das zugehörige Datenkompetenz-Zertifikat. Im aktuellen Projekt „Digital Humanities Ruhr – Algorithmic Accountability“ widmet sie sich dem Ausbau der Data Literacy Lehre in Richtung Geistes- und Gesellschaftswissenschaften.

Katja Ickstadt (Fakultät Statistik, TU Dortmund) hat Mathematik mit Schwerpunkt Technik an der Technischen Universität Darmstadt studiert und dort 1994 in Mathematik promoviert. Vor der Habilitation in Mathematik an der TU Darmstadt 2001 folgten mehrjährige Auslandsaufenthalte zum Forschen und Lehren an der Universität Basel, der Duke University und der University of North Carolina in Chapel Hill. In ihrer Forschung widmet sich Katja Ickstadt Regressionsmethoden für sehr große, hochdimensionale Daten, räumlichen und räumlich-zeitlichen Modellen für biologische und epidemiologische Fragestellungen, sowie der Analyse von Gausschen Prozessmodellen. Dabei stehen insbesondere Bayesianische Methoden im Vordergrund. Sie engagiert sich in der Deutschen Region der Internationalen Biometrischen Gesellschaft (IBS-DR), und ist Vorsitzende der Deutschen Arbeitsgemeinschaft Statistik (DAGStat). (Foto © Felix Schmale/ TU Dortmund)

Lisa-Marie Eckardt ist freie Datenjournalistin beim WDR. Zudem arbeitet sie als Wissenschaftliche Mitarbeiterin der TU Dortmund an einem Projekt zum Thema Algorithmic Accountability Reporting.