Kürzlich veröffentlichte die European Heart Rhythm Association (EHRA) eine Checkliste zur Bewertung und Standardisierung wissenschaftlicher Texte, die den Einsatz von Künstlicher Intelligenz (KI) im Bereich der Elektrophysiologie (EP) thematisiert.3 Die aus 29 Kriterien bestehende Checkliste wurde von Expertinnen und Experten validiert, indem sie auf bereits veröffentlichte Manuskripte aus drei zentralen Themenbereichen der Elektrophysiologie angewendet wurde: Vorhofflimmern, plötzlicher Herztod und der Einsatz von KI im EP-Labor. Ziel der Studie war es, zu untersuchen, inwieweit LLMs in der Lage sind, wissenschaftliche Texte anhand der EHRA-Checkliste systematisch zu analysieren und somit den Prozess der wissenschaftlichen Begutachtung zu unterstützen.
Das LLM ChatGPT (ChatGPT, GPT-4o, OpenAI, San Francisco, USA) wurde genutzt, um die Checkliste auf alle Studien, die im ursprünglichen EHRA-Dokument zur Validierung herangezogen wurden, anzuwenden. Anschließend wurden die Bewertungen des LLMs mit den Bewertungen der Reviewerinnen und Reviewer aus dem Originaldokument der EHRA verglichen.
Insgesamt wurden 1.595 Einzelkriterien der 55 Manuskripte des originalen EHRA-Dokuments durch das LLM bewertet. Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Über die drei Themenbereiche der EP hinweg, zeigten sich Unstimmigkeiten in der Bewertung bei 24 % der Manuskripte im Bereich Vorhofflimmern, 28 % im Bereich plötzlicher Herztod und 20 % im Bereich KI-Anwendung im EP-Labor. Lediglich ein Kriterium der Checkliste (Kriterium 11: „Beschreibung des verwendeten Datentyps“, z. B. EKG, MRT) wurde in allen Manuskripten konsistent sowohl vom LLM als auch vom Expertengremium identisch bewertet.
Die beobachtete Diskrepanz zwischen LLM- und menschlicher Bewertung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht ausreicht, um zuverlässig wissenschaftliche Dokumente zu evaluieren. Die Expertise menschlicher Expertinnen und Experten ist weiterhin nötig, um wissenschaftliche Standards sicherzustellen, weshalb LLMs aktuell noch nicht bei Peer-Review-Prozessen kardiologischer Publikationen verwendet werden sollten.