2025-09-05 –, Room 1 (Upstairs)
Language: Deutsch
Dieser Workshop zeigt, wie man mit LLM-Agents unstrukturierte Daten aus Texten und Grafiken automatisiert ausliest und anreichert. Wir schauen uns an, wie man mithilfe des Agent-Frameworks PydanticAI
- Entitäten und Zahlenwerte aus Fließtext extrahiert,
- Daten kategorisiert,
- Daten aus komplex strukturierten Grafiken einliest,
und jeweils das gewünschte Zielformat präzise definiert. Agents erlauben es dabei, natürliche Sprachverarbeitung, OCR-Fähigkeit und Webrecherche automatisiert zu kombinieren. Arbeitsschritte, die händisch eine Ewigkeit dauern würden, lassen sich so massiv beschleunigen.
Voraussetzungen:
- Kenntnisse in Python und Pandas, Erfahrung mit Jupyter Notebooks oder Google Colab
- wenn ihr lokal mitmacht: Python 3.10+, Pandas und PydanticAI
- optional ein API-Key für ChatGPT/OpenAI, Claude/Anthropic oder Gemini
Lernziele:
Nach Abschluss der Session können Teilnehmer:innen skriptbasiert eigene LLM-Agents erstellen, die aus un- und halbstrukturierten Quellen wie Texten und Bildern strukturierte Daten extrahieren und bei Bedarf mit online recherchierten Informationen anreichern.
Marcel Pauly arbeitet als Datenjournalist in Hamburg. Er studierte Publizistik, Politikwissenschaft und Germanistik in Mainz und besuchte die Henri-Nannen-Journalistenschule in Hamburg. An der Columbia Journalism School in New York absolvierte er das Lede Program, eine Weiterbildung für datengetriebene Recherche, Machine Learning und Datenvisualisierung. Er arbeitete zwei Jahre im Investigativteam der Welt und seit 2017 beim SPIEGEL, wo er von 2018 bis 2023 das Team Datenjournalismus leitete.