KI im Patientengespräch: Wie gut beraten LLMs zu Kardiomyopathien und Herzinsuffizienz?

 

ESC Digital & AI Summit 2025 | ePoster Session: Patientinnen und Patienten nutzen zunehmend KI-Tools, um sich über ihre Erkrankung zu informieren. In einer aktuellen Studie wurde untersucht, wie präzise und verständlich Large Language Models (LLMs) Fragen zu Kardiomyopathien und Herzinsuffizienz beantworten. Die Ergebnisse zeigen eine insgesamt hohe Antwortqualität, mahnen jedoch zur ärztlichen Begleitung.


Dr. Christoph Reich (Universitätsklinikum Heidelberg) stellte die Studiendaten auf dem Kongress vor1 und berichtet.

Von:

Dr. Christoph Reich

Universitätsklinikum Heidelberg

 

21.11.2025

 

Bildquelle (Bild oben): Pani Garmyder / Shutterstock.com

In der modernen Medizin wandelt sich das Paradigma von einer reaktiven Behandlung hin zu einem proaktiven, patientenzentrierten Ansatz. Informierte Patientinnen und Patienten sind der Schlüssel zum Therapieerfolg, dies gilt insbesondere für chronische Erkrankungen wie Herzinsuffizienz und Kardiomyopathien.2 Doch woher beziehen Betroffene ihr Wissen? Neben dem ärztlichen Gespräch dient das Internet längst als primäre Informationsquelle. Aktuelle Daten der Europäischen Union aus dem Jahr 2024 belegen diesen Trend eindrücklich: 58 % der Befragten nutzten das Internet zur Suche nach Gesundheitsinformationen, während signifikante Anteile auch Termine bei Gesundheitsexpertinnen und -experten online buchten (40 %) oder auf digitale Gesundheitsakten zugriffen (28 %).3 Mit dem Aufstieg generativer künstlicher Intelligenz (KI) und LLMs wie ChatGPT & Co. verändert sich die Informationssuche drastisch: Statt statischer Webseiten liefern Chatbots nun interaktive, scheinbar maßgeschneiderte Antworten. Doch wie verlässlich sind diese digitalen Assistenten? In der aktuellen Studie wurde die Performance von sechs State-of-the-art LLMs (OpenAI, Google, Anthropic, xAI, Perplexity und DeepSeek) in einem systematischen Benchmark überprüft.1 Ziel war es, herauszufinden, ob diese Modelle klinisch korrekte und für Laien verständliche Antworten liefern können.

Die LLM-Arena: Ein verblindeter Vergleich

 

Insgesamt wurden 50 klinische Fragen aus den Bereichen Krankheitsverständnis, Diagnose, Therapie und Lebensstil kuratiert. Diese Fragen basierten auf gängigen Konsultationen sowie Patientenforen. Die Bewertung erfolgte über eine eigens entwickelte Web-Plattform, die eine doppelte Verblindung sicherstellte: Weder die klinischen Expertinnen und Experten (Kardiologinnen und Kardiologen) noch die Medizinstudierenden wussten, von welchem KI-Modell eine Antwort stammte. Eine methodische Besonderheit der Studie war der Einsatz von KI Auto-Gradern: Zusätzlich zu den menschlichen Bewertenden wurden automatisierte KI-Systeme eingesetzt, um die Antworten anhand einer 9-Punkte-Skala (u. a. Angemessenheit, Vollständigkeit, Empathie, Halluzinationen) zu bewerten. Dies diente dazu, die Konsistenz der Bewertungen zu erhöhen und eine skalierbare Evaluierungsmethode zu testen.

Sicherheit im Patientengespräch: KI überzeugt mit Aufsicht

 

Die Analyse der insgesamt 2.700 Einzelbewertungen zeigt, dass moderne LLMs im Durchschnitt eine hohe inhaltliche Qualität liefern: Die Modelle erreichten im Durchschnitt hohe Bewertungen hinsichtlich ihrer sachlichen Korrektheit und der Vermeidung von medizinischen Fehlinformationen. Schwere inhaltliche Fehler waren in der verblindeten Evaluation selten. Allerdings offenbarten sich deutliche Unterschiede in der Art und Weise, wie Informationen vermittelt werden: Während einige Modelle sehr detaillierte und gut lesbare Texte (Google Gemini 668,7±116,1 words) lieferten, neigten andere dazu, Antworten mit  höherer sprachlicher Komplexität zu generieren, die für medizinische Laien schwerer verständlich sind (Anthropic Somnet 226,9±38,9 words). Interessant war auch die Diskrepanz der Bewertergruppen: Die automatisierten KI-Grader und Studierenden bewerteten die Antworten tendenziell wohlwollender als die erfahrenen Kardiologinnen und Kardiologen, die strengere Maßstäbe anlegten (mittlere Bewertung 4,58 ± 0,60 vs 4,10 ± 0,88 vs. 3,79 ± 0.93 auf einer Likert-Skale von 1–5). Trotz der hohen Durchschnittsperformance bleibt Vorsicht geboten. Halluzinationen, das selbstbewusste Erfinden von Fakten durch LLMs, traten zwar selten auf, stellten aber in Einzelfällen ein Risiko dar. Zudem offenbarten sich in Ausnahmefällen Lücken in der Aktualität: neue Medikamente, wie Mavacamten zur Behandlung der obstruktiven hypertrophen Kardiomyopathie, wurden in einigen Fällen nicht als Option genannt, was die Notwendigkeit einer ärztlichen Einordnung unterstreicht.

Fazit: Potenzial nutzen und Risiken technisch minimieren

 

Die Ergebnisse unterstreichen, dass LLMs bereits heute eine wertvolle Ergänzung in der Patientenkommunikation darstellen, das persönliche ärztliche Gespräch jedoch nicht ersetzen. Patientinnen und Patienten sollten mit diesen digitalen Tools nicht allein gelassen werden; vielmehr bedarf es weiterhin einer professionellen ärztlichen Einordnung und Aufklärung. Um die identifizierten Schwächen wie veraltete Empfehlungen nachhaltig zu beheben, kann der Weg über spezialisierte Anwendungen führen: Anstatt sich auf generische Chatbots zu verlassen, könnten Kliniken perspektivisch auf RAG-basierte Systeme oder lokale Open-Source-Modelle setzen, welche notwendige Validierungs- und Sicherheitsstandards erfüllen.4,5 Diese ermöglichen nicht nur den direkten Zugriff auf aktuelle Evidenz, sondern lassen sich auch besser an die individuellen Bedürfnisse und den Datenschutz anpassen und so als sichere Werkzeuge in die kardiologische Versorgung integrieren.

Zum Autor

Dr. Christoph Reich

Dr. Christoph Reich ist Assistenzarzt an der Klinik für Kardiologie, Angiologie, Pneumologie am Universitätsklinikum Heidelberg sowie Wissenschaftlicher Mitarbeiter in der AG Molekulargenetisches Labor für funktionelle Molekulargenetik und translationale Biotechnology. Er wird vom Clinician-Scientist-Programm der Medizinischen Fakultät der Universität Heidelberg gefördert.

Key Facts der Studie

In der Studie wurde in einem systematischen Benchmark untersucht, inwieweit 6 State-of-the-art LLMs (u. a. OpenAI, Google, Anthropic) klinisch korrekte und für Laien verständliche Antworten auf 50 klinische Fragen aus den Bereichen Krankheitsverständnis, Diagnose, Therapie und Lebensstil liefern können.

Die Analyse der insgesamt 2.700 Einzelbewertungen zeigt, dass moderne LLMs im Durchschnitt eine hohe inhaltliche Qualität liefern. Dabei beurteilten automatisierte KI-Bewertungssysteme und Medizinstudierende die Antworten tendenziell wohlwollender als die erfahrenen Kardiologinnen und Kardiologen. Halluzinationen und veraltete Empfehlungen traten selten auf, stellen aber ein Risiko dar.

LLMs können bereits heute eine wertvolle Ergänzung in der Patientenkommunikation darstellen, aber das persönliche Arztgespräch nicht ersetzen. Aufgrund von möglichen Halluzinationen und Mängeln in der Aktualität bedürfen Chatbotauskünfte der ärztlichen Einordnung. Perspektivisch könnten spezialisierte, validierte Modelle die Antwortqualität weiter verbessern.  

Referenzen

  1. Reich C., Leverenz J., Brand C. et al. Clinical performance and readability evaluation of large language models for patient communication in heart failure and cardiomyopathies. Poster Session: From bench to bedside: the potential roles of large language models in cardiovascular medicine. ESC Digital & AI Summit 2025, 21.11.2025.
  2. McBeath KCC, Angermann CE, Cowie MR. Digital Technologies to Support Better Outcome and Experience of Care in Patients with Heart Failure. Curr Heart Fail Rep. 2022;19(3):75-108.
  3. Eurostat. Digital economy and society statistics - households and individuals  [Available from: https://ec.europa.eu/eurostat/statistics-explained/index.php?title=Digital_economy_and_society_statistics_-_households_and_individuals, accessed 2025-11-20].
  4. Dennstadt F, Hastings J, Putora PM, Schmerder M, Cihoric N. Implementing large language models in healthcare while balancing control, collaboration, costs and security. NPJ Digit Med. 2025;8(1):143.
  5. Jonnagaddala J, Wong ZS-Y. Privacy preserving strategies for electronic health records in the era of large language models. npj Digital Medicine. 2025;8(1).

Zur Übersichtsseite ESC Digital & AI Summit 2025

Das könnte Sie auch interessieren

KI erlaubt neuartigen Blick auf komplexe Myokardbewegung

ESC Digital & AI Summit 2025 | ePoster Session: LV- und RV-Bewegungskurven mittels KI zur Diagnostik einsetzen. Dr. J. Kiekenap und S. K. Müller berichten.

Interview with the Summit's Programme Co-Chair

ESC Digital & AI Summit 2025 | Assoc. Prof N. Bruining introduces the first edition of the summit and highlights key points of the programme.

Using AI models in acute cardiac care

ESC 2025 | Assoc. Prof A. Böhm on predicting heart failure or shock after myocardial infarction using models of artificial intelligence.

Laden, bitte warten.
Diese Seite teilen