berlin-shutterstock-1882033729-32zu9-1920x540

Large Language Models zur wissenschaftlichen Begutachtung

ESC Digital & AI Summit 2025 | ePoster Session: Die Einsatzmöglichkeiten von Large Language Models (LLM) erweitern sich zunehmend und werden immer vielfältiger. Auch im Kontext der Analyse und Bewertung wissenschaftlicher Texte könnten LLMs unterstützen. Eine aktuelle Studie untersuchte in diesem Zusammenhang die Zuverlässigkeit von LLMs bei der Begutachtung wissenschaftlicher Arbeiten und liefert Hinweise auf ihre Leistungsfähigkeit und Grenzen.¹

Amalia Sluha (Medizinische Hochschule Hannover) stellte die Studiendaten auf dem Kongress vor² und berichtet.

Von:

Amalia Sluha

Medizinische Hochschule Hannover

24.11.2025

Bildquelle (Bild oben): Pani Garmyder / Shutterstock.com

Hintergrund

Kürzlich veröffentlichte die European Heart Rhythm Association (EHRA) eine Checkliste zur Bewertung und Standardisierung wissenschaftlicher Texte, die den Einsatz von Künstlicher Intelligenz (KI) im Bereich der Elektrophysiologie (EP) thematisiert.³ Die aus 29 Kriterien bestehende Checkliste wurde von Expertinnen und Experten validiert, indem sie auf bereits veröffentlichte Manuskripte aus drei zentralen Themenbereichen der Elektrophysiologie angewendet wurde: Vorhofflimmern, plötzlicher Herztod und der Einsatz von KI im EP-Labor. Ziel der Studie war es, zu untersuchen, inwieweit LLMs in der Lage sind, wissenschaftliche Texte anhand der EHRA-Checkliste systematisch zu analysieren und somit den Prozess der wissenschaftlichen Begutachtung zu unterstützen.

Methode

Das LLM ChatGPT (ChatGPT, GPT-4o, OpenAI, San Francisco, USA) wurde genutzt, um die Checkliste auf alle Studien, die im ursprünglichen EHRA-Dokument zur Validierung herangezogen wurden, anzuwenden. Anschließend wurden die Bewertungen des LLMs mit den Bewertungen der Reviewerinnen und Reviewer aus dem Originaldokument der EHRA verglichen.

Ergebnisse

Insgesamt wurden 1.595 Einzelkriterien der 55 Manuskripte des originalen EHRA-Dokuments durch das LLM bewertet. Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Über die drei Themenbereiche der EP hinweg, zeigten sich Unstimmigkeiten in der Bewertung bei 24 % der Manuskripte im Bereich Vorhofflimmern, 28 % im Bereich plötzlicher Herztod und 20 % im Bereich KI-Anwendung im EP-Labor. Lediglich ein Kriterium der Checkliste (Kriterium 11: „Beschreibung des verwendeten Datentyps“, z. B. EKG, MRT) wurde in allen Manuskripten konsistent sowohl vom LLM als auch vom Expertengremium identisch bewertet.

Fazit

Die beobachtete Diskrepanz zwischen LLM- und menschlicher Bewertung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht ausreicht, um zuverlässig wissenschaftliche Dokumente zu evaluieren. Die Expertise menschlicher Expertinnen und Experten ist weiterhin nötig, um wissenschaftliche Standards sicherzustellen, weshalb LLMs aktuell noch nicht bei Peer-Review-Prozessen kardiologischer Publikationen verwendet werden sollten.

Zur Autorin

Amalia Sluha

Amalia Sluha ist Doktorandin am Hannover Herzrhythmus Centrum an der Klinik für Kardiologie und Angiologie an der Medizinischen Hochschule Hannover (MHH). Sie forscht zum Anwendungspotenzial von KI, insbesondere Large Language Models (LLMs), in der Kardiologie.

Key Facts der Studie

Die Studie untersuchte, inwieweit LLMs in der Lage sind, wissenschaftliche Texte systematisch zu analysieren und die wissenschaftliche Begutachtung zu unterstützen. Dafür wurden KI-erstellte Bewertungen anhand einer EHRA-Checkliste mit den Originalbewertungen von Reviewerinnen und Reviewern verglichen.

Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Die Unstimmigkeiten der KI-Bewertungen zum Original variierten je nach Themenbereich zwischen 20 und 28 %.

Die beobachtete Diskrepanz zwischen LLM und menschlicher Begutachtung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht für eine zuverlässige Evaluierung wissenschaftlicher Dokumente z. B. im Rahmen von Peer-Review-Prozessen ausreicht.

Referenzen

Sluha A, Hillmann HAK, Svennberg E, Duncker D. Reliability of large language models for reviewing research with artificial intelligence in cardiac electrophysiology using the european heart rhythm association artificial intelligence checklist. Europace. 2025;27(8):euaf173. doi: 10.1093/europace/euaf173.
Sluha A et al. Assessing the reliability of large language models for reviewing AI research in cardiac electrophysiology using the EHRA AI in EP checklist. Poster Session: From bench to bedside: the potential roles of large language models in cardiovascular medicine. ESC Digital & AI Summit 2025, 21.11.2025.
Svennberg E, Han JK, Caiani EG, et al. State of the art of artificial intelligence in clinical electrophysiology in 2025: A scientific statement of the european heart rhythm association (EHRA) of the ESC, the heart rhythm society (HRS), and the ESC working group on E-cardiology. Europace. 2025;27(5):euaf071. doi: 10.1093/europace/euaf071.

Large Language Models zur wissenschaftlichen Begutachtung

Hintergrund

Methode

Ergebnisse

Fazit

Amalia Sluha

Key Facts der Studie

Referenzen

Mehr zum Thema

Das könnte Sie auch interessieren

Digitalimpulse: Erkennung von Herzerkrankungen per Smartphone

Robotische Herzchirurgie – eine Technik kehrt zurück

Viel Konsens zur Weiterentwicklung des Gesundheitssystems

Starke Unterstützung*

Large Language Models zur wissenschaftlichen Begutachtung

Hintergrund

Methode

Ergebnisse

Fazit

Amalia Sluha

Key Facts der Studie

Was war das Ziel der Studie?

Was waren die wichtigsten Ergebnisse?

Was ist das Fazit für die Praxis?

Referenzen

Mehr zum Thema

Das könnte Sie auch interessieren

Digitalimpulse: Erkennung von Herzerkrankungen per Smartphone

Robotische Herzchirurgie – eine Technik kehrt zurück

Viel Konsens zur Weiterentwicklung des Gesundheitssystems

Starke Unterstützung*