Die Echokardiografie ist die Standard-Bildgebung für die Erstuntersuchung von Patientinnen und Patienten mit Herzerkrankungen und Verdacht auf kardiale Amyloidose (CA). Eine kardiale Amyloid-Infiltration ist gekennzeichnet durch eine biventrikuläre Wandverdickung, eine beeinträchtigte longitudinale systolische Funktion und eine beeinträchtigte Relaxation. Die typischen CA-Merkmale werden allerdings häufig übersehen oder erst spät erkannt. Die Diagnose wird zudem durch erhebliche Überlappungen der echokardiografischen Befunde zwischen CA und anderen hypertrophen Phänotypen erschwert. Algorithmen, die auf Deep-Learning und künstlicher Intelligenz (KI) basieren, haben sich in der kardiovaskulären Bildgebung bereits als vielversprechend erwiesen.
Ziel dieser Arbeit war die Entwicklung und Validierung eines Deep-Learning-Modells für die simultane CA-Diagnose während der Echokardiografie und der Vergleich mit einer bereits zugelassenen Software für KI-basierte automatisierte Messungen auf der Grundlage von Echokardiografie-Bildern. Das Deep-Learning-Modell wurde mit Daten aus 2 Zentren trainiert: National Amyloidosis Center (NAC, London) and Taiwan MacKay Memorial Hospital (TMMH, Taiwan) und anschließend mit Daten von 2 weiteren Zentren getestet (Japan National Cerebral and Cardiovascular Center und US Duke University Health System).
Das Training des Deep-Learning-Modells erfolgte mit Daten von insgesamt 5.776 Personen der NAC- und TMMH-Kohorte (CA-Gruppe n=2.756; Kontrollgruppe n=3.020) und die Validierung mit weiteren externen Datensätzen aus den USA (CA n=334; LVH-Kontrollen n=668) und Japan (CA n=181; LVH-Kontrollen n=222).
Für die Erfassung von KI-basierten Messungen wurde eine bereits zugelassene Echokardiografie-Software (Us2.ai, Singapore) eingesetzt, die Echokardiografie-Bilder vollautomatisch analysiert, die für den etablierten Amyloidose-Score erforderlichen Parameter misst und daraus den KI-Echo-Score berechnet (definiert als: relative Wanddicke >0,6=3 Punkte, E/e’>11=1 Punkt, TAPSE ≤19 mm=2 Punkte, globaler longitudinaler Strain ≥−13 %=1 Punkt, Strainverhältnis zwischen Apikal- und Basisbereich des Septums >2,9=3 Punkte). Der KI-Echo-Score erreichte eine Genauigkeit von 79,5 % in der US-Kohorte und von 79,7 % in der Japan-Kohorte. In der US-Kohorte konnte der KI-Echo-Score allerdings nur bei 60,9 % der Personen ermittelt werden und in der Japan-Kohorte nur bei 73,4 % aufgrund fehlender Daten bzw. unzureichender Bildqualität.
Das Deep-Learning-Modell lernte dagegen, anhand von Echokardiografie-Videos selbstständig Bildmuster zu erkennen, die mit kardialer Amyloidose assoziiert sind, ohne die Vorgabe bestimmter Messgrößen. Das hier verwendete Deep-Learning-Modell (Us2.ca) benötigte im Mittel 0,83 Sekunden pro Echokardiografie-Videoclip (apikaler Vierkammerblick) für die Analyse und 68 Sekunden für den automatisierte Befundbericht.
Im internen Validierungs- und Testdatensatz erzielte das Deep-Learning-Modell Genauigkeiten von 96,2 % (Sensitivität: 96,8 %; Spezifität: 95,7 %) und 95,8 % (Sensitivität: 97,3 %; Spezifität: 94,3 %). Die externe Validierung des Deep-Learning-Modells ergab Genauigkeiten von 87,5 % (Sensitivität: 86,6 %; Spezifität: 87,9 %) in der US-Kohorte und 88,4 % (Sensitivität: 92,3 %; Spezifität: 85,3 %) in der Japan-Kohorte. Eine Subgruppenanalyse zeigte, dass das Deep-Learning-Modell eine robuste Unterscheidung der CA von anderen Phänotypen ermöglichte, wie Bluthochdruck, hypertrophe Kardiomyopathie, Aortenklappenstenose und chronische Nierenerkrankung.
Im Vergleich zum KI-Echo-Score klassifizierte das Deep-Learning-Modell einen größeren Anteil von Patientinnen und Patienten und erzielte eine höhere diagnostische Genauigkeit (AUC 0,93 vs. 0,88; p<0,001).
Sowohl der KI-basierte multiparametrische Echo-Score als auch das automatisierte Deep-Learning-Modell können die Routine-Diagnostik mittels Echokardiografie unterstützen und dazu beitragen, kardiale Amyloidose früher zu erkennen. Das Deep-Learning-Modell war gegenüber dem KI-Echo-Score im Hinblick auf die diagnostische Genauigkeit und die Praktikabilität überlegen. Weitere prospektive Studien sind notwendig, um diese Ergebnisse zu bestätigen.
Stärken und methodische Einschränkungen
Hervorzuheben sind die große, multinationale und herstellerübergreifende externe Validierung, die erstmalige Prüfung des multiparametrischen Scores mit vollautomatisch erhobenen Messwerten sowie der direkte Kopf-an-Kopf-Vergleich beider Strategien. Mehrere Punkte verdienen jedoch kritische Würdigung:
- Die CA-Fälle stammen weit überwiegend aus spezialisierten Amyloidose-Zentren; die Kohorten sind hochprävalent. In einem unselektierten Niedrigprävalenz-Setting sinkt der positive prädiktive Wert trotz hoher Sensitivität/Spezifität erheblich – ein Kritikpunkt, der von den Autorinnen und Autoren korrekt benannt wird.
- Die Mehrheit der Trainingskontrollen wurde allein anhand echokardiografischer Bildkriterien als „keine CA“ definiert, nicht durch systematisches Screening; daraus resultiert ein gewisses Zirkularitätsrisiko.
- Die Beschränkung auf den Vierkammerblick ist pragmatisch, ignoriert aber verfügbare Informationen. Die Nutzung beispielsweise aller apikaler Schnittebenen könnte die Zuverlässigkeit erhöhen.
- Die Studie ist retrospektiv, prospektive Workflow- und insbesondere auch Outcome-Daten (z. B. verkürzte Zeit bis zur Diagnosestellung?) fehlen ebenso wie eine herstellerunabhängige Validierung der kommerziellen Software.
Praktisch heißt das: Ein Smartwatch-Befund ist Anlass für eine geordnete Abklärung, aber noch keine Diagnose. Bestätigung per 12-Kanal-EKG, eine Einschätzung des individuellen Risikos und eine sorgfältige Therapieentscheidung bleiben unverzichtbar.
Einordnung in den deutschen Versorgungsalltag
Die CA, insbesondere die ATTR-Kardiomyopathie, ist auch hierzulande unterdiagnostiziert und in Kollektiven mit HFpEF, TAVR-Populationen und unklarer linksventrikulärer Hypertrophie überrepräsentiert. Die ESC-Kardiomyopathie-Leitlinie 2023 hat „red flags" und den nicht-bioptischen Diagnosepfad über die Knochenszintigrafie (Perugini-Grad ≥2 nach Ausschluss einer monoklonalen Gammopathie) etabliert, bei unklaren Fällen bleibt die bioptische Sicherung indiziert. Da die Echokardiografie in Deutschland flächendeckend verfügbar und Erstlinienuntersuchung ist, ist ein automatisiertes Screening im Echolabor gerade außerhalb spezialisierter Zentren konzeptionell attraktiv – insbesondere vor dem Hintergrund einer wachsenden Zahl wirksamer Therapieoption, die die Frühdiagnose zunehmend handlungsrelevant macht und den Nutzen des Screenings erhöht.
Entscheidend bleibt jedoch: Die KI kann aktuell eine Verdachtsdiagnose stellen, ersetzt aber keinen Bestätigungspfad (Szintigrafie, Leichtketten- und Immunfixationsdiagnostik, ggf. CMR, ggf. Biopsie). Praktische Hürden sind zudem die Integration in PACS/Befundsysteme, DSGVO-konforme Verarbeitung und die Erstattungsfrage, günstig ist die bereits vorhandene CE-Zertifizierung und FDA-Clearance. Zudem ist die gezeigte Multi-Vendor-Konsistenz für die gemischte deutsche Gerätelandschaft ermutigend.
Fazit
Das Deep-Learning-Modell überzeugt durch hohe Genauigkeit, Geschwindigkeit und Hersteller-Robustheit aus einer einzigen Standardprojektion. Vor einer breiten Implementierung im deutschen Alltag stehen prospektive Validierungen in unselektierten Niedrigprävalenz-Kohorten, sowie die Klärung des nachgeschalteten Versorgungspfads. Als Triage- und Awareness-Werkzeug besitzt der Ansatz erhebliches Potenzial, eignet sich gegenwärtig aber nicht als Diagnose-Ersatz.
Zur Übersichtsseite Diagnostik