In der modernen Medizin wandelt sich das Paradigma von einer reaktiven Behandlung hin zu einem proaktiven, patientenzentrierten Ansatz. Informierte Patientinnen und Patienten sind der Schlüssel zum Therapieerfolg, dies gilt insbesondere für chronische Erkrankungen wie Herzinsuffizienz und Kardiomyopathien.2 Doch woher beziehen Betroffene ihr Wissen? Neben dem ärztlichen Gespräch dient das Internet längst als primäre Informationsquelle. Aktuelle Daten der Europäischen Union aus dem Jahr 2024 belegen diesen Trend eindrücklich: 58 % der Befragten nutzten das Internet zur Suche nach Gesundheitsinformationen, während signifikante Anteile auch Termine bei Gesundheitsexpertinnen und -experten online buchten (40 %) oder auf digitale Gesundheitsakten zugriffen (28 %).3 Mit dem Aufstieg generativer künstlicher Intelligenz (KI) und LLMs wie ChatGPT & Co. verändert sich die Informationssuche drastisch: Statt statischer Webseiten liefern Chatbots nun interaktive, scheinbar maßgeschneiderte Antworten. Doch wie verlässlich sind diese digitalen Assistenten? In der aktuellen Studie wurde die Performance von sechs State-of-the-art LLMs (OpenAI, Google, Anthropic, xAI, Perplexity und DeepSeek) in einem systematischen Benchmark überprüft.1 Ziel war es, herauszufinden, ob diese Modelle klinisch korrekte und für Laien verständliche Antworten liefern können.
Insgesamt wurden 50 klinische Fragen aus den Bereichen Krankheitsverständnis, Diagnose, Therapie und Lebensstil kuratiert. Diese Fragen basierten auf gängigen Konsultationen sowie Patientenforen. Die Bewertung erfolgte über eine eigens entwickelte Web-Plattform, die eine doppelte Verblindung sicherstellte: Weder die klinischen Expertinnen und Experten (Kardiologinnen und Kardiologen) noch die Medizinstudierenden wussten, von welchem KI-Modell eine Antwort stammte. Eine methodische Besonderheit der Studie war der Einsatz von KI Auto-Gradern: Zusätzlich zu den menschlichen Bewertenden wurden automatisierte KI-Systeme eingesetzt, um die Antworten anhand einer 9-Punkte-Skala (u. a. Angemessenheit, Vollständigkeit, Empathie, Halluzinationen) zu bewerten. Dies diente dazu, die Konsistenz der Bewertungen zu erhöhen und eine skalierbare Evaluierungsmethode zu testen.
Die Analyse der insgesamt 2.700 Einzelbewertungen zeigt, dass moderne LLMs im Durchschnitt eine hohe inhaltliche Qualität liefern: Die Modelle erreichten im Durchschnitt hohe Bewertungen hinsichtlich ihrer sachlichen Korrektheit und der Vermeidung von medizinischen Fehlinformationen. Schwere inhaltliche Fehler waren in der verblindeten Evaluation selten. Allerdings offenbarten sich deutliche Unterschiede in der Art und Weise, wie Informationen vermittelt werden: Während einige Modelle sehr detaillierte und gut lesbare Texte (Google Gemini 668,7±116,1 words) lieferten, neigten andere dazu, Antworten mit höherer sprachlicher Komplexität zu generieren, die für medizinische Laien schwerer verständlich sind (Anthropic Somnet 226,9±38,9 words). Interessant war auch die Diskrepanz der Bewertergruppen: Die automatisierten KI-Grader und Studierenden bewerteten die Antworten tendenziell wohlwollender als die erfahrenen Kardiologinnen und Kardiologen, die strengere Maßstäbe anlegten (mittlere Bewertung 4,58 ± 0,60 vs 4,10 ± 0,88 vs. 3,79 ± 0.93 auf einer Likert-Skale von 1–5). Trotz der hohen Durchschnittsperformance bleibt Vorsicht geboten. Halluzinationen, das selbstbewusste Erfinden von Fakten durch LLMs, traten zwar selten auf, stellten aber in Einzelfällen ein Risiko dar. Zudem offenbarten sich in Ausnahmefällen Lücken in der Aktualität: neue Medikamente, wie Mavacamten zur Behandlung der obstruktiven hypertrophen Kardiomyopathie, wurden in einigen Fällen nicht als Option genannt, was die Notwendigkeit einer ärztlichen Einordnung unterstreicht.
Die Ergebnisse unterstreichen, dass LLMs bereits heute eine wertvolle Ergänzung in der Patientenkommunikation darstellen, das persönliche ärztliche Gespräch jedoch nicht ersetzen. Patientinnen und Patienten sollten mit diesen digitalen Tools nicht allein gelassen werden; vielmehr bedarf es weiterhin einer professionellen ärztlichen Einordnung und Aufklärung. Um die identifizierten Schwächen wie veraltete Empfehlungen nachhaltig zu beheben, kann der Weg über spezialisierte Anwendungen führen: Anstatt sich auf generische Chatbots zu verlassen, könnten Kliniken perspektivisch auf RAG-basierte Systeme oder lokale Open-Source-Modelle setzen, welche notwendige Validierungs- und Sicherheitsstandards erfüllen.4,5 Diese ermöglichen nicht nur den direkten Zugriff auf aktuelle Evidenz, sondern lassen sich auch besser an die individuellen Bedürfnisse und den Datenschutz anpassen und so als sichere Werkzeuge in die kardiologische Versorgung integrieren.