Die evidenzbasierte Dokumentation einer Schluckstörung gewinnt zunehmend an Bedeutung. Weltweit hat sich die sog. Rosenbek-Skala für die Gradeinteilung des Kardinalmerkmals einer Schluckstörung, die Penetration bzw. Aspiration, für den klinischen wie wissenschaftlichen Gebrauch etabliert. Auch im deutschsprachigen Raum wird sie zunehmend verwendet. Eine einheitliche deutsche Fassung existiert bislang jedoch nicht. In diesem Beitrag werden die von Rosenbek autorisierte deutsche Fassung und die Validierung für die fiberoptisch endoskopische Evaluation des Schluckens (FEES) vorgestellt.

Hintergrund und Fragestellung

Die Penetration bzw. Aspiration, das Eindringen von Material in die unteren Luftwege oberhalb bzw. unterhalb der Stimmlippen, ist das Kardinalmerkmal [1, 3, 11] einer oropharyngealen Dysphagie und daher von hoher diagnostischer und therapeutischer Relevanz. Um dieses Phänomen standardisiert erfassen zu können, entwickelten John C. Rosenbek et al. 1996 die Penetrations-Aspirations-Skala (PAS; [9]). In 8 Kategorien werden mittels PAS die Eindringtiefe von Material in die unteren Luftwege, die Reaktion des Patienten auf penetriertes bzw. aspiriertes Material und die Effektivität der Patientenreaktion in Bezug auf eine suffiziente Entfernung des penetrierten oder aspirierten Materials aus den unteren Luftwegen eingeteilt. Die erste Validierung dieser Skala erfolgte für die videofluoroskopische Schluckuntersuchung (VFSS), die weltweit zusammen mit der fiberoptisch endoskopischen Evaluation des Schluckens (FEES) nach Langmore [6] als Goldstandard in der apparativen Diagnostik einer Schluckstörung anerkannt ist. Eine Validierung für die FEES erfolgte 2002 durch Colodny mittels einer Replikationsstudie [2].

Die PAS erlaubt daher den Vergleich der als komplementär angesehenen videofluoroskopischen und endoskopischen Schluckuntersuchungen und eignet sich damit zur standardisierten, validen und evidenzbasierten Dokumentation einer Schluckstörung sowohl für die klinische als auch die wissenschaftliche Anwendung [8, 12]. International etabliert und empfohlen, findet die PAS in den letzten Jahren auch zunehmend im deutschen Sprachraum Verbreitung [4, 7, 13]. Allerdings existieren mittlerweile zahlreiche heterogene deutsche Versionen, die den Anforderungen an eine fachgerechte Übersetzung nicht gerecht werden und vielfach nicht mit dem Original übereinstimmen. Darüber hinaus existiert keine systematische Validierung dieser so wichtigen Skala für die FEES-Diagnostik, auch wenn sie in Deutschland bereits zunehmend Verbreitung und Anwendung findet.

Ziel war daher

  • die valide Übersetzung der Originalfassung der 8-Punkte-PAS von John C. Rosenbek et al. in die deutsche Sprache und

  • die Validierung dieser deutschen Übersetzung für die FEES-Diagnostik.

Material und Methoden

Die 8-Punkte-Penetrations-Aspirations-Skala von Rosenbek et al. (Originalversion in Tab. 1) wurde nach Autorisierung durch Rosenbek von 2 Dysphagieexperten (Fachärztin für Phoniatrie und Pädaudiologie sowie HNO-Heilkunde, Sprachtherapeutin), beide mit mehr als 10 Jahren Erfahrung in der FEES-Diagnostik inkl. PAS-Einsatz, ins Deutsche übersetzt.

Tab. 1 Englische Originalversion der 8-Punkte-Penetrations-Aspirations-Skala nach Rosenbek

Diese deutsche Fassung wurde entsprechend den Richtlinien für die Übersetzung fremdsprachlicher Messinstrumente [10] von 2 bilingualen, jedoch englischen Muttersprachlern mit sehr guten Deutschkenntnissen ins Englische rückübersetzt und mit dem Original verglichen. Die Rückübersetzung entsprach bei beiden exakt dem Original, sodass diese Erstfassung der deutschen Übersetzung ohne Änderungen beibehalten wurde (Tab. 2).

Tab. 2 Deutsche Version der 8-Punkte-Penetrations-Aspirations-Skala nach Rosenbek

Für die Validierung der deutschen Übersetzung wurden von den 2 Dysphagieexperten 80 Schlucke, für jede PAS-Kategorie 10, von insgesamt 55 Patienten aus über 1000 digital aufgezeichneten FEES-Untersuchungen (Langmore-Standard) retrospektiv ausgewählt und in einer gemeinsamen Abstimmung der beiden Dysphagieexperten als Referenzstandard definiert. Bei den Boluskonsistenzen handelte es sich um Flüssigkeiten und Püree mit Bolusgrößen von 2–5 ml. Die insgesamt 80 Schlucke wurden von einer Studienassistentin, ohne Erfahrung mit Dysphagie, anonymisiert und randomisiert zusammengestellt. Die Randomisierung erfolgte computergestützt (Freeware Research Randomizer 4.0, http://www.randomizer.org).

Die Beurteilung der 80 Schlucke erfolgte durch 4 räumlich voneinander getrennte HNO-Ärzte, 2 mit Dysphagieerfahrung von mehr als 3 Jahren, 2 mit entsprechender Erfahrung von weniger als 3 Jahren. Alle Rater verfügten über Anwendungskenntnisse der FEES-Diagnostik und der Nutzung der Penetrations-Aspirations-Skala. Die Präsentation wurde mittels VirtualDub 1.9.11 (http://www.virtualdub.org) durchgeführt. Alle Rater hatten die Möglichkeit, jeden Schluck beliebig oft in normaler Geschwindigkeit, in Zeitlupe oder Bild für Bild zu betrachten.

Zur Bestimmung der Intrarater-Reliabilität wurden 2 Wochen nach der Erstbeurteilung die Schlucke von allen 4 Ratern ein zweites Mal neu randomisiert beurteilt.

Statistische Analyse

Zur Validierung der hier vorgelegten deutschen PAS-Version für die FEES-Diagnostik wurden die Intrarater-Reliabilität, die Interrater-Reliabilität und der Vergleich der einzelnen Ratings mit dem Referenzstandard bestimmt.

Für die Intra- und Interrater-Reliabilität wurden sowohl das Korrelations- als auch das Unterschiedsmaß berechnet, da auch bei hohen Korrelationen signifikante Unterschiede nicht ausgeschlossen sind. Daher wurde die Intrarater-Reliabilität mittels Kendall-Tau-Korrelation und Wilcoxon-Test, die Interrater-Reliabilität mittels einer Intraklassenkorrelation (ICC 3.1) und des Friedman-Tests analysiert.

Um zu beurteilen, ob einige PAS-Kategorien schwerer als andere einzuordnen sind, wurde die Häufigkeitsverteilung der vergebenen 8 PAS-Kategorien der 4 Rater zum ersten und zum zweiten Ratingzeitpunkt in einer Kreuztabelle dargestellt. Berechnet wurde der Unterschied der Häufigkeitsverteilung zwischen den 4 Ratings des ersten Ratingzeitpunktes und den 4 des zweiten Ratingzeitpunktes mittels χ2-Analyse.

Die Beurteilungsheterogenität der 4 Rater innerhalb der 8 PAS-Kategorien im ersten und im zweiten Rating wurde mit dem Friedman-Test bestimmt.

Für die Analyse der Übereinstimmungsvalidität wurden Zusammenhang und Unterschiede der einzelnen Ratings im Vergleich zum Referenzstandard mittels Kendall-Tau-Korrelation bzw. des Wilcoxon-Tests berechnet.

Die statistische Analyse wurde mit SPSS (Version 20) durchgeführt.

Ergebnisse

Die Analyse der Intrarater-Reliabilität zeigte eine hochsignifikante Korrelation der einzelnen Rater zwischen beiden Sitzungen (Kendall-Tau: τs > 0,643; Median 0,773; ps < 0,001) ohne signifikante Unterschiede (Wilcoxon: Zs > − 1,60; Median: − 0,86; ps > 0,05).

Die Interrater-Reliabilität zeigte eine hochsignifikante Korrelation bei einem ICC-Koeffizienten der Einzelwerte von 0,799 für die erste Sitzung und 0,728 für die zweite Sitzung, ps < 0,001. Die Berechnung auf Unterschiede dagegen zeigte sowohl beim ersten als auch beim zweiten Rating einen hochsignifikanten Unterschied zwischen den Ratern (Friedman-Test: 1. Rating: χ2 (3) = 34,07, p < 0,001, 2. Rating: χ2 (3) = 31,14; p < 0,001).

Vor allem erwies sich der Mittelwertsunterschied zwischen den beiden Ratern mit weniger als 3 Jahren und den beiden mit mehr als 3 Jahren Dysphagieerfahrung mit Z = − 2,84, p < 0,01 als signifikant (Wilcoxon-Test).

Der Tab. 3 ist die Häufigkeitsverteilung der PAS-Kategorien von allen 4 Ratern zum ersten und zum zweiten Ratingzeitpunkt zu entnehmen. Dabei finden sich am rechten bzw. unteren Seitenrand die Angaben über die Gesamthäufigkeitsverteilung des ersten bzw. des zweiten Ratingzeitpunkts. Die Gesamtübereinstimmung zwischen allen 4 Ratings des ersten und allen 4 Ratings des zweiten Ratingzeitpunkts betrug 67,0 % mit einem hochsignifikanten Unterschied in der Häufigkeitsverteilung der beiden Sitzungen (χ2 = 932,11, p < 0,001). Dabei zeigte sich, dass bei beiden Sitzungen die Grade 1 und 4 häufig vergeben wurden, der Grad 6 dagegen vergleichsweise selten.

Tab. 3 Cross-Klassifikation der Scores der 1. und 2. Sitzung für die 4 Rater

Die Bestimmung der Beurteilungsheterogenität der von den 4 Ratern gewählten PAS-Kategorien im Vergleich mit dem Referenzstandard ergab zum ersten Ratingzeitpunkt signifikante Unterschiede, also weniger richtige Treffer, für die PAS-Kategorien 2, 3, 5, 6 und 8. Zum Ratingzeitpunkt 2 zeigte sich dagegen eine deutlich höhere Übereinstimmung mit nur noch signifikanten Unterschieden in den PAS-Kategorien 3 und 8. Die PAS-Kategorien 1, 4 und 7 konnten zu beiden Ratingzeitpunkten sicher bestimmt werden (Tab. 4).

Tab. 4 Friedman-Test für die einzelnen PAS-Graduierungen im Vergleich zum Referenzstandard in beiden Sitzungen

Der Vergleich der Einzelratings mit dem Referenzstandard zur Analyse der Übereinstimmungsvalidität zeigte bei allen 4 Ratern sowohl zum ersten Ratingzeitpunkt (τs > 0,674; Median: 0,785; ps < 0,001) als auch zum zweiten Ratingzeitpunkt (τs > 0,607; Median: 0,791; ps < 0,001) eine hochsignifikante Kendall-Tau-Korrelation der 8 Einzelratings mit dem Referenzstandard.

Bei den beiden Ratern mit Dysphagieerfahrung über 3 Jahren zeigten sich sowohl in der ersten als auch in der zweiten Sitzung keine signifikanten Unterschiede der Einzelratings im Vergleich mit dem Referenzstandard. Dagegen wurden bei den Ratern mit Dysphagieerfahrung unter 3 Jahren in 3 von 4 Ratings signifikante Unterschiede nachgewiesen (Tab. 5).

Tab. 5 Wilcoxon-Test: Unterschiede zwischen dem Referenzstandard und allen Ratings

Nimmt man die Mediane der Einzelratings aller 4 Rater pro Film und korreliert diese mit dem Referenzstandard, so zeigt sich eine nahezu perfekte Übereinstimmung ([5]; 1. Sitzung: τ = 0,894; 2. Sitzung: τ = 0,843; ps < 0,001) ohne signifikante Unterschiede (1. Sitzung: Z = − 0,58; 2. Sitzung: Z = − 1,63; ps > 0,05).

Diskussion

Mit der hier vorgelegten deutschen Version der Penetrations-Aspirations-Skala nach Rosenbek et al., validiert für die FEES-Diagnostik, werden die Ergebnisse von Rosenbek et al. [9] und Colodny [2] bestätigt.

Es zeigte sich eine sehr gute Intrarater-Reliabilität bei hochsignifikanter Korrelation für jeden der 4 Rater zu beiden Ratingzeitpunkten mit beachtlicher Übereinstimmung laut Landis und Koch [5] und ohne signifikante Unterschiede. Auch die Interrater-Reliabilität zeigte eine hochsignifikante Korrelation sowohl für die erste als auch für die zweite Sitzung, allerdings mit einem hochsignifikanten Unterschied, vergleicht man die Beurteilungen der beiden Rater mit mehr als 3 Jahren mit denen der beiden Rater mit weniger als 3 Jahren Dysphagieerfahrung. Die Reliabilität der deutschen Version der PAS ist damit gegeben, auch wenn sie durch den Erfahrungsgrad beeinflusst zu werden scheint.

Die Gesamtübereinstimmung in der Häufigkeitsverteilung der 4 Ratings zum ersten Ratingzeitpunkt und der Häufigkeitsverteilung der 4 Ratings zum zweiten Ratingzeitpunkt war zufriedenstellend und mit 67 % quasi identisch mit den 69,2 % der Validitätsstudie der FEES-Diagnostik von Colodny [2] (Colodny nennt fälschlicherweise die Zahl 82,3 %; in Wirklichkeit waren es aber 69,2 %, was man anhand ihrer Tab. 6 nachrechnen kann). Ebenso zeigte sich in der Validierung der deutschen Version der PAS für die FEES-Diagnostik, wie bei Colodny auch, eine hohe Beurteilungsheterogenität der 4 Ratings zum ersten Ratingzeitpunkt mit deutlicher Besserung zum Zeitpunkt des zweiten Ratings hinsichtlich der Übereinstimmung der Beurteilungen der 4 Rater mit dem Referenzstandard.

Die größte Schwierigkeit in der korrekten Zuordnung bildeten in der hier vorgelegten Studie die Kategorien 3 und 8, während sich die Kategorien PAS 1, 4 und 7 (χ2 < 7,33 und p > 0,05) am zuverlässigsten einordnen ließen. Dies entspricht für die PAS-Kategorien 1 und 7 den Ergebnissen von Rosenbek et al. Dagegen konnten Colodny, aber auch Rosenbek et al. für die mittleren Kategorien, insbesondere für die Kategorien 4 und 6, keine reliablen Werte aufweisen. Beide begründeten dies damit, dass diese PAS-Kategorien insgesamt sehr selten vorkommen, was sich in unserer Studienvorbereitung bestätigte. Allerdings ließen sich für die Validierung der deutschen PAS-Version sehr eindeutige Beispiele definieren, sodass mindestens für die Kategorie 4 zuverlässige Aussagen getroffen werden konnten. In der Kategorie 3 dagegen war für unsere Rater eine Abgrenzung zu den Kategorien 4 bzw. 5 bisweilen schwierig. Auch die Kategorie 8 wurde bei stiller Aspiration nur sehr diskreter Mengen aufgrund der fehlenden Patientenreaktion mitunter nicht richtig erkannt und fälschlicherweise zum Beispiel als Kategorie 5 oder 1 klassifiziert.

Die Korrelation der Einzelratingsmediane ergab jedoch eine nahezu perfekte Übereinstimmung mit dem Referenzstandard [5] ohne signifikante Unterschiede, sodass die hier vorliegende deutsche Version nicht nur als reliabel, sondern auch als valide zu bewerten ist.

Betrachtet man isoliert die Unterschiedsbestimmung für die 8 Einzelratings der 4 Rater zu den beiden Ratingzeitpunkten mit dem Referenzstandard, so ergibt sich jedoch ein signifikanter Unterschied der Ratings, wieder in Abhängigkeit von der Dysphagieerfahrung.

Damit erwiesen sich sowohl die Interrater-Reliabilität als auch die Unterschiedsbestimmung der 8 Einzelratings vs. Referenzstandard als abhängig von der Dysphagieerfahrung der Rater.

Zudem zeigte sich zum zweiten Ratingzeitpunkt eine deutliche Abnahme der hohen Beurteilungsheterogenität des ersten Ratings, sodass sich die Beurteilung weitaus homogener darstellte. Die Rater selbst gaben hierzu an, zum zweiten Ratingzeitpunkt deutlich sensibler für die Penetrations- und Aspirationssymptomatik gewesen zu sein und damit sicherer im Umgang mit der PAS nach Rosenbek et al.

Dies könnte ein Hinweis sein, dass mit intensiver Auseinandersetzung der Einteilung von Penetration und Aspiration gemäß PAS nach Rosenbek et al. ein Lerneffekt zu verzeichnen ist, und lässt annehmen, dass ein Training in der Nutzung der PAS, zum Beispiel durch Beurteilung zahlreicher endoskopischer Schluckaufnahmen im Rahmen eines Kurses, einen positiven Effekt auf die Reliabilität und Validität einer Beurteilung haben wird.

Die Validierung der hier vorgestellten deutschen Version sollte auch für die VFSS erfolgen.

Die PAS-Skala nach Rosenbek et al. wurde entwickelt zur Graduierung der Penetration/Aspiration und zur Verlaufsdokumentation einer Schluckstörung. Zur Klärung der Genese dieses Kardinalmerkmals war und ist sie nicht gedacht, und entsprechend gibt es hierzu keine Information.

Ansonsten ist die deutsche Version der PAS, validiert für die FEES-Diagnostik, reliabel und valide geeignet zur Graduierung des Kardinalmerkmals und bietet sich als evidenzbasiertes Instrument für die klinische und wissenschaftliche Anwendung in der Dysphagiediagnostik an.

Fazit für die Praxis

  • Die deutsche Version der Penetrations-Aspirations-Skala nach Rosenbek et al., validiert für die FEES-Diagnostik, eignet sich als reliables und valides Instrument zur Graduierung des Kardinalmerkmals einer Schluckstörung.

  • Da die Beurteilungsreliabilität sich von der Dysphagieerfahrung eines Raters abhängig zeigte und mit zunehmender Anwendung homogenere Werte ergab, ist ein Einüben in der Anwendung empfehlenswert.

  • Insgesamt bildet die vorliegende deutsche Version der Penetrations-Aspirations-Skala nach Rosenbek et al. einen wichtigen Beitrag zur evidenzbasierten Medizin in der Dysphagiediagnostik für den klinischen und wissenschaftlichen Gebrauch.