Large Language Models zur wissenschaftlichen Begutachtung

 

ESC Digital & AI Summit 2025 | ePoster Session: Die Einsatzmöglichkeiten von Large Language Models (LLM) erweitern sich zunehmend und werden immer vielfältiger. Auch im Kontext der Analyse und Bewertung wissenschaftlicher Texte könnten LLMs unterstützen. Eine aktuelle Studie untersuchte in diesem Zusammenhang die Zuverlässigkeit von LLMs bei der Begutachtung wissenschaftlicher Arbeiten und liefert Hinweise auf ihre Leistungsfähigkeit und Grenzen.1

 

Amalia Sluha (Medizinische Hochschule Hannover) stellte die Studiendaten auf dem Kongress vor2 und berichtet.

Von:

Amalia Sluha

Medizinische Hochschule Hannover

 

24.11.2025

 

Bildquelle (Bild oben): Pani Garmyder / Shutterstock.com

Hintergrund

 

Kürzlich veröffentlichte die European Heart Rhythm Association (EHRA) eine Checkliste zur Bewertung und Standardisierung wissenschaftlicher Texte, die den Einsatz von Künstlicher Intelligenz (KI) im Bereich der Elektrophysiologie (EP) thematisiert.3 Die aus 29 Kriterien bestehende Checkliste wurde von Expertinnen und Experten validiert, indem sie auf bereits veröffentlichte Manuskripte aus drei zentralen Themenbereichen der Elektrophysiologie angewendet wurde: Vorhofflimmern, plötzlicher Herztod und der Einsatz von KI im EP-Labor. Ziel der Studie war es, zu untersuchen, inwieweit LLMs in der Lage sind, wissenschaftliche Texte anhand der EHRA-Checkliste systematisch zu analysieren und somit den Prozess der wissenschaftlichen Begutachtung zu unterstützen. 

Methode

 

Das LLM ChatGPT (ChatGPT, GPT-4o, OpenAI, San Francisco, USA) wurde genutzt, um die Checkliste auf alle Studien, die im ursprünglichen EHRA-Dokument zur Validierung herangezogen wurden, anzuwenden. Anschließend wurden die Bewertungen des LLMs mit den Bewertungen der Reviewerinnen und Reviewer aus dem Originaldokument der EHRA verglichen. 

Ergebnisse

 

Insgesamt wurden 1.595 Einzelkriterien der 55 Manuskripte des originalen EHRA-Dokuments durch das LLM bewertet. Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Über die drei Themenbereiche der EP hinweg, zeigten sich Unstimmigkeiten in der Bewertung bei 24 % der Manuskripte im Bereich Vorhofflimmern, 28 % im Bereich plötzlicher Herztod und 20 % im Bereich KI-Anwendung im EP-Labor. Lediglich ein Kriterium der Checkliste (Kriterium 11: „Beschreibung des verwendeten Datentyps“, z. B. EKG, MRT) wurde in allen Manuskripten konsistent sowohl vom LLM als auch vom Expertengremium identisch bewertet. 

Fazit

 

Die beobachtete Diskrepanz zwischen LLM- und menschlicher Bewertung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht ausreicht, um zuverlässig wissenschaftliche Dokumente zu evaluieren. Die Expertise menschlicher Expertinnen und Experten ist weiterhin nötig, um wissenschaftliche Standards sicherzustellen, weshalb LLMs aktuell noch nicht bei Peer-Review-Prozessen kardiologischer Publikationen verwendet werden sollten. 

Zur Autorin

Amalia Sluha

Amalia Sluha ist Doktorandin am Hannover Herzrhythmus Centrum an der Klinik für Kardiologie und Angiologie an der Medizinischen Hochschule Hannover (MHH). Sie forscht zum Anwendungspotenzial von KI, insbesondere Large Language Models (LLMs), in der Kardiologie.

Key Facts der Studie

Die Studie untersuchte, inwieweit LLMs in der Lage sind, wissenschaftliche Texte systematisch zu analysieren und die wissenschaftliche Begutachtung zu unterstützen. Dafür wurden KI-erstellte Bewertungen anhand einer EHRA-Checkliste mit den Originalbewertungen von Reviewerinnen und Reviewern verglichen.

Für keines der Manuskripte ergab sich eine vollständig identische Bewertung zwischen LLM und menschlicher Begutachtung. Die Unstimmigkeiten der KI-Bewertungen zum Original variierten je nach Themenbereich zwischen 20 und 28 %.

Die beobachtete Diskrepanz zwischen LLM und menschlicher Begutachtung zeigt, dass die Leistungsfähigkeit von LLMs derzeitig noch nicht für eine zuverlässige Evaluierung wissenschaftlicher Dokumente z. B. im Rahmen von Peer-Review-Prozessen ausreicht.


Referenzen

  1. Sluha A, Hillmann HAK, Svennberg E, Duncker D. Reliability of large language models for reviewing research with artificial intelligence in cardiac electrophysiology using the european heart rhythm association artificial intelligence checklist. Europace. 2025;27(8):euaf173. doi: 10.1093/europace/euaf173.
  2. Sluha A et al. Assessing the reliability of large language models for reviewing AI research in cardiac electrophysiology using the EHRA AI in EP checklist. Poster Session: From bench to bedside: the potential roles of large language models in cardiovascular medicine. ESC Digital & AI Summit 2025, 21.11.2025.
  3. Svennberg E, Han JK, Caiani EG, et al. State of the art of artificial intelligence in clinical electrophysiology in 2025: A scientific statement of the european heart rhythm association (EHRA) of the ESC, the heart rhythm society (HRS), and the ESC working group on E-cardiology. Europace. 2025;27(5):euaf071. doi: 10.1093/europace/euaf071.

Mehr zum Thema

Zur Übersichtsseite ESC Digital & AI Summit 2025

Das könnte Sie auch interessieren

LLM-gestützte digitale Lernplattform für Herzinsuffizienz und ICD

ESC Digital & AI Summit 2025 | ePoster Session: Wie gut eignen sich LLMs zur strukturierten Patientenedukation? Von A. Sluha.

Keynote „AI decoded“: In 4 Schritten zur KI-Lösung

ESC Digital & AI Summit 2025 | Keynote: Dr. M. Tschochohei (Google Deutschland) gibt Expertentipps zum erfolgreichen Einsatz von KI-Systemen.

Wie gut berät KI Laien zu Kardiomyopathien und Herzinsuffizienz?

ESC Digital & AI Summit 2025 | ePoster Session: Ein systematischer Vergleich von 6 State-of-the-art LLM-Chatbots. Von Dr. C. Reich.

Laden, bitte warten.
Diese Seite teilen