berlin-shutterstock-1882033729-32zu9-1920x540

Large Language Models zur wissenschaftlichen Begutachtung

ESC Digital & AI Summit 2025 | ePoster Session: Die Einsatzmöglichkeiten von Large Language Models (LLM) erweitern sich zunehmend und werden immer vielfältiger. Auch im Kontext der Analyse und Bewertung wissenschaftlicher Texte könnten LLMs unterstützen. Eine aktuelle Studie untersuchte in diesem Zusammenhang die Zuverlässigkeit von LLMs bei der Begutachtung wissenschaftlicher Arbeiten und liefert Hinweise auf ihre Leistungsfähigkeit und Grenzen.1

 

Amalia Sluha (Medizinische Hochschule Hannover) stellte die Studiendaten auf dem Kongress vor2 und berichtet.

Von:

Amalia Sluha

Medizinische Hochschule Hannover

 

24.11.2025

Bildquelle (Bild oben): Pani Garmyder / Shutterstock.com

Hintergrund

Kürzlich veröffentlichte die European Heart Rhythm Association (EHRA) eine Checkliste zur Bewertung und Standardisierung wissenschaftlicher Texte, die den Einsatz von Künstlicher Intelligenz (KI) im Bereich der Elektrophysiologie (EP) thematisiert.3 Die aus 29 Kriterien bestehende Checkliste wurde von Expertinnen und Experten validiert, indem sie auf bereits veröffentlichte Manuskripte aus drei zentralen Themenbereichen der Elektrophysiologie angewendet wurde: Vorhofflimmern, plötzlicher Herztod und der Einsatz von KI im EP-Labor. Ziel der Studie war es, zu untersuchen, inwieweit LLMs in der Lage sind, wissenschaftliche Texte anhand der EHRA-Checkliste systematisch zu analysieren und somit den Prozess der wissenschaftlichen Begutachtung zu unterstützen. 

Methode

Das LLM ChatGPT (ChatGPT, GPT-4o, OpenAI, San Francisco, USA) wurde genutzt, um die Checkliste auf alle Studien, die im ursprünglichen EHRA-Dokument zur Validierung herangezogen wurden, anzuwenden. Anschließend wurden die Bewertungen des LLMs mit den Bewertungen der Reviewerinnen und Reviewer aus dem Originaldokument der EHRA verglichen. 

Ergebnisse

Insgesamt wurden 1.595 Einzelkriterien der 55 Manuskripte des originalen EHRA-Dokuments durch das LLM bewertet. Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Über die drei Themenbereiche der EP hinweg, zeigten sich Unstimmigkeiten in der Bewertung bei 24 % der Manuskripte im Bereich Vorhofflimmern, 28 % im Bereich plötzlicher Herztod und 20 % im Bereich KI-Anwendung im EP-Labor. Lediglich ein Kriterium der Checkliste (Kriterium 11: „Beschreibung des verwendeten Datentyps“, z. B. EKG, MRT) wurde in allen Manuskripten konsistent sowohl vom LLM als auch vom Expertengremium identisch bewertet. 

Fazit

Die beobachtete Diskrepanz zwischen LLM- und menschlicher Bewertung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht ausreicht, um zuverlässig wissenschaftliche Dokumente zu evaluieren. Die Expertise menschlicher Expertinnen und Experten ist weiterhin nötig, um wissenschaftliche Standards sicherzustellen, weshalb LLMs aktuell noch nicht bei Peer-Review-Prozessen kardiologischer Publikationen verwendet werden sollten. 

Zur Autorin

Amalia Sluha

Amalia Sluha ist Doktorandin am Hannover Herzrhythmus Centrum an der Klinik für Kardiologie und Angiologie an der Medizinischen Hochschule Hannover (MHH). Sie forscht zum Anwendungspotenzial von KI, insbesondere Large Language Models (LLMs), in der Kardiologie.
sluha-amalia-2025-1zu1-375x375

Key Facts der Studie

Die Studie untersuchte, inwieweit LLMs in der Lage sind, wissenschaftliche Texte systematisch zu analysieren und die wissenschaftliche Begutachtung zu unterstützen. Dafür wurden KI-erstellte Bewertungen anhand einer EHRA-Checkliste mit den Originalbewertungen von Reviewerinnen und Reviewern verglichen.

Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Die Unstimmigkeiten der KI-Bewertungen zum Original variierten je nach Themenbereich zwischen 20 und 28 %.

Die beobachtete Diskrepanz zwischen LLM und menschlicher Begutachtung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht für eine zuverlässige Evaluierung wissenschaftlicher Dokumente z. B. im Rahmen von Peer-Review-Prozessen ausreicht.

Referenzen

  1. Sluha A, Hillmann HAK, Svennberg E, Duncker D. Reliability of large language models for reviewing research with artificial intelligence in cardiac electrophysiology using the european heart rhythm association artificial intelligence checklist. Europace. 2025;27(8):euaf173. doi: 10.1093/europace/euaf173.
  2. Sluha A et al. Assessing the reliability of large language models for reviewing AI research in cardiac electrophysiology using the EHRA AI in EP checklist. Poster Session: From bench to bedside: the potential roles of large language models in cardiovascular medicine. ESC Digital & AI Summit 2025, 21.11.2025.
  3. Svennberg E, Han JK, Caiani EG, et al. State of the art of artificial intelligence in clinical electrophysiology in 2025: A scientific statement of the european heart rhythm association (EHRA) of the ESC, the heart rhythm society (HRS), and the ESC working group on E-cardiology. Europace. 2025;27(5):euaf071. doi: 10.1093/europace/euaf071.

Mehr zum Thema

Zur Übersichtsseite ESC Digital & AI Summit 2025

Das könnte Sie auch interessieren

ESC Digital & AI Summit 2025 | Program Chair Prof. S. Engelhardt über die Highlights und mit Ausblick auf den nächsten Summit. Von Dr. K. Betz.

ESC Digital & AI Summit 2025 | Joint Session: Herzchirurg Prof. F. Beyersdorf über Roboterchirurgie, Augmented Reality und virtuelle Modelle.

ESC Digital & AI Summit 2025 | Pitch Sessions: Ein Überblick zu aktuellen Entwicklungen im digitalen und KI-Bereich. Mit Kommentar von PD Dr. P. Breitbart.