Die Analyse der insgesamt 2.700 Einzelbewertungen zeigt, dass moderne LLMs im Durchschnitt eine hohe inhaltliche Qualität liefern: Die Modelle erreichten im Durchschnitt hohe Bewertungen hinsichtlich ihrer sachlichen Korrektheit und der Vermeidung von medizinischen Fehlinformationen. Schwere inhaltliche Fehler waren in der verblindeten Evaluation selten. Allerdings offenbarten sich deutliche Unterschiede in der Art und Weise, wie Informationen vermittelt werden: Während einige Modelle sehr detaillierte und gut lesbare Texte (Google Gemini 668,7±116,1 words) lieferten, neigten andere dazu, Antworten mit höherer sprachlicher Komplexität zu generieren, die für medizinische Laien schwerer verständlich sind (Anthropic Somnet 226,9±38,9 words). Interessant war auch die Diskrepanz der Bewertergruppen: Die automatisierten KI-Grader und Studierenden bewerteten die Antworten tendenziell wohlwollender als die erfahrenen Kardiologinnen und Kardiologen, die strengere Maßstäbe anlegten (mittlere Bewertung 4,58 ± 0,60 vs 4,10 ± 0,88 vs. 3,79 ± 0.93 auf einer Likert-Skale von 1–5). Trotz der hohen Durchschnittsperformance bleibt Vorsicht geboten. Halluzinationen, das selbstbewusste Erfinden von Fakten durch LLMs, traten zwar selten auf, stellten aber in Einzelfällen ein Risiko dar. Zudem offenbarten sich in Ausnahmefällen Lücken in der Aktualität: neue Medikamente, wie Mavacamten zur Behandlung der obstruktiven hypertrophen Kardiomyopathie, wurden in einigen Fällen nicht als Option genannt, was die Notwendigkeit einer ärztlichen Einordnung unterstreicht.