Bewertung der Datenqualität von Online-Umfragen: Eine explorative Untersuchung der Potenziale von Large-Language Models zur Detektion von unzureichendem Antwortaufwand
06.09.2025 , Saal
Sprache: Deutsch

Einführung

Online-Umfragen sind in der empirischen Forschung als Instrument zur Datenerhebung weit verbreitet. Um Teilnehmer für Online-Umfragen zu erreichen, gewinnen Crowdsourcing-Plattformen wie Amazon Mechanical Turk oder Prolific zunehmend an Bedeutung. Solche Plattformen ermöglichen eine schnelle Datenerhebung und den Zugang zu oft diverseren Stichproben als herkömmliche Rekrutierungsmethoden. Es besteht jedoch die Gefahr, dass Teilnehmende hauptsächlich aus äusseren Anreizen wie beispielsweise der Vergütung teilnehmen und die Fragen daher unachtsam beantworten. Dieses als „Insufficient Effort Responding“ (IER) bekannte Phänomen kann die Untersuchungsergebnisse erheblich verzerren.

Erkennung und Kontrolle von Insufficient Effort Responding

Zur Erkennung und Kontrolle von IER wurden verschiedene Ansätze entwickelt. Beispielsweise testen instruierte Antworten, ob Teilnehmende Anweisungen befolgen, während statistische Verfahren Unstimmigkeiten in Antwortmustern aufdecken. Letztere erfordern jedoch häufig komplexe Analysen oder spezifische Datenvoraussetzungen. Besonders herausfordernd ist die Überprüfung offener Antworten, da diese meist manuell beurteilt werden müssen und stark vom jeweiligen Kontext abhängen, was besonders bei grösseren Stichproben erheblichen Aufwand bedeutet. Large Language Models (LLMs) können dabei unterstützen, doch ihre Zuverlässigkeit bei der Erkennung von IER ist noch unklar.

Ziel des Workshops

In diesem Workshop werden wir gemeinsam mit den Teilnehmenden explorieren, inwieweit sich LLMs zur Identifikation von IER eignen. Anhand öffentlich zugänglicher Datensätze sowie grösseren Datensätze aus unserer eigenen Forschung wollen wir gemeinsam erarbeiten, wie gut LLMs im Vergleich zu menschlichen Einschätzungen und statistischen Kennwerten abschneiden.

Ablauf

  1. Einführung: Der Workshop beginnt mit einer kurzen Einführung in die Thematik der Datenqualität in Online-Untersuchungen und den Herausforderungen von IER. Wir stellen gängige Techniken vor, beleuchten deren Vor- und Nachteile und entwickeln gemeinsam erste Hypothesen zu den Potenzialen und Schwächen von LLMs in diesen Aufgaben.
  2. Praktische Übung: Anschliessend erhalten die Teilnehmenden einen Datensatz mit offenen Antworten aus einer früheren Studie, die bereits manuell bewertet wurden. In Gruppenarbeit erfolgt zunächst eine eigene Bewertung, die als zusätzliche Baseline dient. Im Anschluss vergleichen wir die aktuellen Einschätzungen mit früheren Ergebnissen, den Bewertungen eines LLMs und statistischen Kennzahlen. Ziel ist es, systematische Übereinstimmungen oder Abweichungen herauszuarbeiten.

  3. Reflexion und Diskussion: Abschliessend folgt eine gemeinsame Reflexion darüber, unter welchen Bedingungen LLMs eine sinnvolle Ergänzung oder gar Alternative zu etablierten Verfahren darstellen könnten, wie sich mögliche Fehler systematisch erklären lassen und welche Prompt-Strategien zu besseren Ergebnissen führen könnten.

Mit diesem Workshop möchten wir praxisnah ermitteln, ob und unter welchen Bedingungen LLMs die Identifikation von IER sinnvoll unterstützen können. Dabei werden systematisch Stärken, Schwächen und Optimierungsmöglichkeiten herausgearbeitet.

Ich bin Nick von Felten, Psychologe und Doktorand an der Universität St. Gallen im Bereich Human-Computer Interaction. In meiner Forschung untersuche ich die Schnittstelle zwischen Künstlicher Intelligenz und der menschlichen Psyche, insbesondere die Wechselwirkungen zwischen algorithmischen und menschlichen Verzerrungen (Biases) und deren Einfluss auf Verhalten und Einstellungen. Mithilfe experimenteller Methoden analysiere ich die Angemessenheit KI-gestützter Urteile und deren subjektive Wahrnehmung durch Menschen.

Datenqualität in Online-Umfragen

Ein Aspekt, mit dem ich immer wieder konfrontiert werde, ist die Qualität von Daten in Online-Umfragen. Deshalb erforsche ich, wie Crowdsourcing-Plattformen die Stichprobenerhebung beeinflussen und welche Verfahren helfen, verzerrte oder unachtsame Antworten zu erkennen. Besonders interessiere ich mich für den Einsatz von Large Language Models (LLMs) als mögliche Werkzeuge zur Identifikation solcher Antworten, ein Thema, das ich gemeinsam mit den Teilnehmenden meines Workshops erkunden möchte.

Interdisziplinäre Perspektive

Mit meiner interdisziplinären Perspektive zwischen Psychologie, Human-Computer Interaction, Meta-Science und Künstlicher Intelligenz freue ich mich darauf, mit Praktiker:innen und Forschenden in den Austausch zu treten, Methoden zu diskutieren und neue Ansätze zur Verbesserung der Datenqualität zu entwickeln.