Eine Ergebnisanalyse operativer Maßnahmen erlangt im Hinblick auf die Verbesserung der Lebensqualität der behandelten Menschen einen immer größeren Stellenwert. Dies ist auch besonders im Bereich der Schulter zu beobachten. Aufgrund der großen Variabilität der Erkrankungen und Verletzungen der Schulter ist jedoch eine Funktionsbeurteilung, die alle Aspekte ausreichend berücksichtigt und gleichzeitig für den Routinebetrieb der Klinik praktikabel ist, äußerst schwierig. In den letzten Jahrzehnten wurde eine Vielzahl von Scores [8, 13, 14, 15, 17, 20, 21, 27], die z. T. nur für eine bestimmte Entität einsetzbar sind, publiziert. Allerdings konnte man sich international noch auf kein universal akzeptiertes, standardisiertes System einigen, um die Funktion der normalen, erkrankten, verletzten oder operierten Schulter festzulegen, wenngleich auch einige Studien die bisher gebräuchlichen Scores vergleichend untersucht haben [1, 3, 19, 22, 26, 28].

Constant hat 1987 auf Englisch [6] und 1991 auf Deutsch [7] ein Scoringsystem vorgestellt, das sowohl von der SECEC (Europäischen Gesellschaft für Schulter- und Ellbogenchirurgie) als auch von der DVSE (Deutschen Gesellschaft für Schulter- und Ellbogenchirurgie) als Standardinstrument für die Beurteilung der Schulterfunktion empfohlen wird. Conboy et al. [5] fanden für den Constant-Score (CS) eine gute Intraobserver- und Interobservervariabilität, kritisierten jedoch eine beschränkte Einsatzfähigkeit für Patienten mit Schulterinstabilität.

Ein Nachteil des CS ist bisher die Notwendigkeit einer klinischen Untersuchung und Befunderhebung durch den Arzt. Daher hatten Gschwendt et al. [11] den SVISS (Schulthess visual shoulder score) vorgestellt, der eine Fragebogenerhebung des CS ermöglichen sollte. Hier wurden bis auf die Ermittlung der Kraft alle Kategorien des CS validiert, jedoch keine Reliabilitätstestung durchgeführt [18].

Die Idee, durch einen Fragebogen die Erhebung des CS ohne erneute Vorstellung des Patienten zu ermöglichen, wurde in dieser Studie aufgegriffen. Die Validität und Reliabilität eines deutschsprachigen Fragebogens, der die komplette Selbsterhebung des CS durch den Patienten ermöglichen sollte, wurde mit besonderer Berücksichtigung der Kraftmessung untersucht. Somit wird dieser Fragebogen, eine Erhebung des bekannten und im europäischen Bereich meistverwendeten Scoringsystems der Schulter, dem CS, eine Nachuntersuchung ermöglichen. Dies würde die Möglichkeit bieten, den von Skutek et al. [22, 23] beschriebenen Nachteil des CS, die Notwendigkeit der klinischen Untersuchung zur Scoreerhebung, zu beheben und somit die Einsatzmöglichkeit des von den nationalen und europäischen Dachgesellschaften empfohlenen CS zu erweitern.

Material und Methoden

Constant-Score

Es werden subjektive (35%) und objektive (65%) Parameter aus 4 funktionellen Bereichen zu maximal 100 Punkten zusammengefasst. Während der Patient subjektiv über Schmerzen und Aktivitäten des täglichen Lebens (ADL) berichtet, wird objektiv vom Untersucher die schmerzfreie Beweglichkeit der Schulter und die Schulterkraft beurteilt [6, 7]. Die Punkteverteilung der einzelnen Kategorien des CS sind in Abb. 1 dargestellt.

Abb. 1
figure 1

Punkteverteilung der einzelnen Funktionsbereiche des CS

Der subjektiv empfundene Schmerz wird auf einer visuellen Analogskala von 0–15 festgelegt, wobei 15 Punkte bei Schmerzfreiheit und 0 Punkte bei stärksten Schmerzen vergeben werden. In der Kategorie für die Aktivitäten des täglichen Lebens werden jeweils maximal 4 Punkte für uneingeschränkte Arbeitsfähigkeit und Freizeitaktivität sowie 2 Punkte für ungestörten Schlaf vergeben. Bei schmerzfrei möglicher Überkopfarbeit können 10 Punkte erreicht werden. Besonders hervorzuheben ist, dass immer die schmerzfreie Beweglichkeit bewertet wird und nicht die unter Schmerzen maximal erreichbare Position.

Bei der funktionellen Untersuchung von Anteversion und Abduktion durch den Arzt werden bei schmerzfreier Beweglichkeit von >150° jeweils maximal 10 Punkte vergeben, bei geringerer schmerzfreier Beweglichkeit werden je 30° <2 Punkte abgezogen. Die Außenrotation wird in 5 verschiedenen Positionen untersucht. Hier ist die Bewertung dichotom aufgebaut. Ein schmerzfreies Erreichen der angegebenen Position ergibt jeweils 2 Punkte. Kann die Position nicht oder nur unter Schmerzen erreicht werden, wird kein Punkt vergeben. Die kombinierte Innenrotationsfähigkeit wird durch die mit dem Handrücken über der Wirbelsäule maximal erreichbare Höhe getestet. Für 10 Punkte muss die Interskapularregion schmerzfrei erreicht werden, bei geringerer schmerzfreier Beweglichkeit werden dementsprechend weniger Punkte vergeben. Alle Bewegungsprüfungen sind auf dem Bogen mit Bildern dargestellt.

Die Messung der Kraft erfolgt entweder am sitzenden oder am stehenden Patienten. Der gestreckte Arm wird in der Skapulaebene (30° Anteversion) 90° abduziert und die Messvorrichtung direkt unter dem Handgelenk angebracht. Constant u. Murley [6] verwendeten dazu eine Federwaage, welche vom Patienten mit der Hand gehalten wurde. In der deutschen Publikation [7] wird vom Übersetzer die Insertionszone des Deltoideus als Messpunkt angegeben. Dies entspricht jedoch nicht der Originalpublikation von 1987 und wird von der SECEC auch abgelehnt. Der von der SECEC empfohlene Messpunkt ist das Handgelenk.

Gerber [9] empfiehlt eine elektronische Messung im Stehen oder Sitzen. Geeignete Geräte sind das ISOBEX Kraftanalysegerät (Cursor AG, Bern, Schweiz) oder das Nottingham Myometer (MECMESIN, Broadbrigde Heath, West Sussex, GB). Taylor et al. [24] konnten keinen statistischen Unterschied zwischen den erhaltenen Werten beider Geräte feststellen, während die mit einer Federwaage ermittelten Werte um 0,5–1,0 kg höher lagen. Pro Pfund (0,4536 kg) erreichter Abduktionskraft wird ein Punkt vergeben. Maximal sind 25 Punkte erreichbar. Die Angabe der Kraft in Pfund erfolgt aufgrund der ursprünglich von Constant [6] verwendeten Einheit. Das Nottingham-Myometer (MECMESIN, Broadbrigde Heath, West Sussex, GB) erfasst diese ursprüngliche Pfundeinteilung und wurde daher in dieser Studie verwendet. Zur Selbstevaluierung der Kraft sollte der Patient einen Beutel mit 1-l-Tetra-Paks oder einem Äquivalent füllen und am ausgestreckten Arm für 5 s in der oben beschriebenen Position halten.

Kraftanalyse und Berechnung eines Umrechnungsfaktors vom Selbsttest zur Maschinentestung durch den Untersucher

Im Untersuchungsbogen wird der Patient aufgefordert, eine Tüte mit Tetra-Paks zu füllen, diese ans Handgelenk zu hängen und für 5 s zu halten. Da auch hier 25 Punkte verteilt werden sollen, musste das Verhältnis der mit dem Kraftmessgerät erhaltenen Werte zu den Tetra-Paks festgestellt werden. Zur Bestimmung dieses Äquivalenzverhältnisses wurde eine Untersuchung durchgeführt. Bei konventionsgemäßer Festsetzung von α=5% und 1-β=80% sowie einseitiger Testung und in Erwartung eines starken korrelativen Effekts wurde ein Stichprobenumfang von nopt=22 benötigt [4].

Die Kraftanalyse wurde in einem Cross-over-Design durchgeführt. Es wurden sowohl rechte als auch linke Schultern untersucht. Die Probanden mussten 12 Wiederholungen durchführen: Federwaage rechte und linke Seite 3-mal, Tetra-Paks rechte und linke Seite 3-mal. Die 12 Wiederholungen wurden entsprechend dem Cross-over-Design nach einem zuvor festgelegten randomisierten Plan durchgeführt.

Ermittelt wurden die Werteverteilung, der korrelative Zusammenhang zwischen den beiden Kraftmessgeräten und dann ein Umrechnungsfaktor. Die Untersuchung wurde an 30 zufällig ausgewählten Probanden (19 Männer, 11 Frauen, mittleres Alter 34 Jahre, 19–65 Jahre) durchgeführt.

Die Tabelle 1 zeigt die mittlere Werteverteilung beider Kraftmessungen. Der Abb. 2 sind die Normalverteilung der Werte für beide Tests zu entnehmen. Der Kolmogorov-Smirnov-Test war dementsprechend nicht signifikant. Die Skalen wurden jeweils in ihrer Breite gut ausgenutzt, es ergaben sich keine Boden- oder Deckeneffekte.

Tabelle 1 Werteverteilungen der Kraftanalysen (Mittelwerte)
Abb. 2a, b
figure 2

Werteverteilungen des Kraftanalysetests mit a Tetra-Pak und b Mecmesin-Kraftanalysegerät

Es zeigte sich ein starker korrelativer Zusammenhang r=0,878 (p=0,000) zwischen beiden Verfahren zur Kraftmessung. Der Umrechnungsfaktor betrug 2,20 (Tabelle 2). Die daraus folgenden Punkteverteilungen für die Kraftmessung im Rahmen des CS-Patientenfragebogens sind Tabelle 3 zu entnehmen.

Tabelle 2 Ermittlung des Umrechnungsfaktors für die Kraftanalyse mittels Tetra-Paks (Mittelwerte, lbs=0,4536 kg)
Tabelle 3 Punkteverteilung für den Krafttest mit Tetra-Paks

Evaluierung

Stichprobe

Bei konventionsgemäßer Festsetzung von α=5% und 1-β=80% sowie einseitiger Testung und in Erwartung eines starken korrelativen Effekts wird ein Stichprobenumfang von nopt=22 benötigt [4]. Unter der Annahme eines Drop-out von 20% wurde deshalb zur Bestimmung der korrelativen Zusammenhänge eine Mindeststichprobengröße von 27 Patienten angestrebt. Einschlusskriterien für die Stichprobe waren fließende deutsche Sprachkenntnisse, Alter zwischen 20 und 80 Jahren, operativ behandelte Schultererkrankung. Ausschlusskriterien waren schwere neurologische oder psychiatrische Erkrankungen, laufendes Schadensersatz- oder Berentungsverfahren und unzureichende deutsche Sprachkenntnisse oder Verständnisschwierigkeiten.

Statistische Verfahren

Für den klinischen Einsatz eines Instrumentes sind die Parameter Reliabilität und Validität relevant. Sofern die Werte des untersuchten Instruments einer Normalverteilung (Kolmogorov-Smirnov-Anpassungstest) folgen, können parametrische Verfahren für die weiteren Untersuchungen genutzt werden. Die Anzahl der nicht beantworteten Fragen gibt einen Hinweis auf die Praktikabilität des Instruments.

Die Reliabilität eines Instrumentes drückt seine Fähigkeit zur reproduzierbaren Ergebnismessung aus. Daneben kann die interne Konsistenz als weiterer Aspekt der Reliabilität durch die Inter-Item-Korrelation innerhalb einer Skala, ausgedrückt als Cronbachs-α gezeigt werden. Ein hoher Cronbach-α-Wert (maximal 1) belegt, dass alle Items gleichmäßig stark zu einer Skala beitragen.

Die Validität sollte in den Bereichen Kontentvalidität, diskriminative und Kriterium/Konstruktvalidität sowie durch Responsivität belegt werden. Kann dieser Nachweis in diesen Bereichen nicht erbracht werden, so sind Zweifel an der Validität des Instruments angezeigt.

Die Kontentvalidität drückt die Fähigkeit eines Instruments zur differenzierten Bewertung eines Zustands aus. Eine Werteverteilung im Histogramm ohne wesentliche Boden- und Deckeneffekte ist ein Indiz für eine gute Kontentvalidität. Die diskriminative Validität drückt die Fähigkeit des Instruments aus, Patienten unterschiedlicher Erkrankungsschwere voneinander anhand eines T-Tests für unabhängige Stichproben zu unterscheiden. Die Konstruktvalidität wird durch den Vergleich in Form einer Korrelationsanalyse mit dem „golden standard“ der Ergebnismessung gezeigt.

Weitere wichtige Parameter zur Bestimmung der Güte eines Testverfahrens sind Trennschärfe und Itemschwierigkeit. Dabei sollte die Itemschwierigkeit zwischen 0,3 und 0,7 liegen, der Idealwert beträgt 0,50. Die Trennschärfe ist direkt abhängig von der Itemschwierigkeit, es wird jedes einzelne Item mit dem Mittelwert der anderen Items verglichen. Die Trennschärfe sollte >0,3 (−0,3) sein.

Zur Bestimmung der Retestreliabilität wurden die Patienten, bei denen ein operativer Eingriff der Schulter geplant war, 7–10 Tage vor stationärer Aufnahme angeschrieben sowie ein Studieneinwilligungs-, Aufklärungsformular und ein CS-Bogen zugesandt. Am Tag der stationären Aufnahme erhielten die Patienten einen 2. CS-Bogen zum Ausfüllen, anschließend erfolgte die Erhebung des CS durch den Arzt. Die Retestreliabilität wurde mit dem Pearson-Korrelationskoeffizienten und die interne Konsistenz mit dem Cronbach-Koeffizienten α bestimmt. Für die Bestimmung der Konstruktvalidität ist bei den Patienten der CS vom Arzt erhoben worden. Zur Ermittlung der diskriminanten Validität sollte die aktuell behandelte Schulter mit der nicht behandelten Schulter anhand eines T-Tests für gepaarte Stichproben verglichen werden.

Für die Beurteilung von Boden- und Deckeneffekten wurden die Werteverteilungen herangezogen, Mittel-, Minimal- und Maximalwerte sowie die Standardabweichungen wurden berechnet. Ein Kolmogorov-Smirnov-Test auf Normalverteilung wurde durchgeführt. Mittlere Itemschwierigkeiten und Trennschärfen wurden ermittelt. Fehlende Werte sind durch die Methode Zeitreihenmittelwerte ersetzt worden. Die statistischen Berechnungen wurden mit Hilfe des Programmpaketes SPSS vorgenommen.

Ergebnisse

Evaluationsstudie

Die Evaluierung des CS-Patientenbogens erfolgte an 47 Patienten [32 Männer, 15 Frauen, mittleres Alter 46 (22–73) Jahre], die sich einer operativen Behandlung ihrer Schulter unterzogen. 29 Patienten hatten als intraoperativ bestätigte Diagnose eine Rotatorenmanschettenruptur, 9 ein subakromiales Schmerzsyndrom, 6 eine Omarthrose und 3 eine Schulterinstabilität.

Die Tabelle 4 zeigt die Werteverteilung der CS-Fragebögen zu beiden Messzeitpunkten. Der Abb. 3 sind die Normalverteilung der Werte für beide Fragebögen bei der stationären Aufnahme zu entnehmen. Der Kolmogorov-Smirnov-Test war dementsprechend nicht signifikant. Die Skala wurde jeweils in ihrer Breite gut ausgenutzt, es zeigten sich keine Boden- oder Deckeneffekte. Somit konnte die Kontentvalidität nachgewiesen werden. Bei den Items aller Bögen, bis auf den Krafttest prästationär (27% fehlend), waren <5% fehlende Antworten zu finden, diese wurden durch Mittelwerte ersetzt.

Tabelle 4 Werteverteilung der Fragebögen zu beiden Messzeitpunkten für die operierte Schulter
Abb. 3
figure 3

Werteverteilung der Fragebögen (a) und der vom Arzt erhobenen CS (b) bei stationärer Aufnahme t1

Die mittlere Trennschärfe des CS-Patientenbogens zur stationären Aufnahme lag bei r=0,47, die des durch den Arzt erhoben CS bei r=0,64 (Tabelle 5). Die mittlere Itemschwierigkeit der Patientenversion betrug 0,40, die der Arztversion 0,42 (s. Tabelle 5).

Tabelle 5 Trennschärfe und Itemschwierigkeit der Fragebögen zur stationären Aufnahme

Die Retestreliabilität war r=0,675 (p=0,000), die interne Konsistenz des Patientenbogens 0,80 und die des Arztbogens 0,85. Somit kann die Zuverlässigkeit der Bögen als gegeben betrachtet werden. Der CS-Patientenbogen zur stationären Aufnahme korrelierte hoch signifikant bei r=0,82 mit dem vom Arzt erhobenen CS, somit ist für die Erfassung der Funktionsfähigkeit die Konstruktvalidität gegeben. Der Gesamtscore der Patientenversion der zur Operation angestandenen Schulter unterschied sich hochsignifikant von der aktuell nicht behandelten Schulter (p=0,000, n=47, MW-Differenz=39,95, SD=17,66). Dies konnte gleichermaßen bei dem vom Arzt erhobenen CS festgestellt werden (p=0,000, n=47, MW-Differenz=40,47, SD=20,94). Die diskriminante Validität ist somit nachgewiesen.

Diskussion

Der CS ermöglicht es die Schulterfunktion mit einem guten Intra- und Interobserverfehler zu erfassen [5]. Der Einschluss der Kraftmessung ist der Hauptvorteil gegenüber anderen Scoringsystemen [8, 11, 14, 15, 17,20, 21, 26], wenngleich diese auch einige Probleme aufwirft [2]. Da bei vielen Schultererkrankungen die Abduktionskraft abnimmt [16, 25], stellt sie aber einen wichtigen Bestandteil der Schulterfunktion dar.

Nachdem der CS von der SECEC als auch von der DVSE als Standardinstrument für die Beurteilung der Schulterfunktion empfohlen wird, sollte er auch als Basis für Publikationen aus diesem Bereich eingesetzt werden. Als Nachteil gereichte bisher die arztgebundene Nachuntersuchung, um den CS zu erheben [22, 23]. Bei dem von Gschwend et al. [11] vorgestellten SVISS-Fragebogen zur Erhebung des CS in englischer Sprache wurden bis auf die Ermittlung der Kraft alle Kategorien des CS validiert, jedoch nicht auf die Retestreliabilität getestet [18].

In der vorliegenden Studie wurde ein Fragebogen zur Erhebung des CS in deutscher Sprache getestet an 47 Patienten erfolgreich getestet. Die Retestreliabilität war in einem gut annehmbaren Bereich befriedigend. Die interne Konsistenz zeigt wie beim vom Arzt erhobenen Score eine inhaltliche Homogenität der Fragen. Die Konstruktvalidierung war erfolgreich, denn die Arztuntersuchung und der CS-Bogen zeigten eine deutliche Beziehung. Auch die diskriminate Validität wurde nachgewiesen, der Fragebogen ist in der Lage, bedeutsam zwischen erkrankten und gesunden Schultern zu unterscheiden.

Diese statistischen Analysen zeigen, dass der CS-Bogen ein gutes, reliables und valides Instrument zur Erhebung des CS darstellt. Daher kann er bei speziellen Fragestellungen auch bei Patienten eingesetzt werden, die für eine klinische Nachuntersuchung nicht zur Verfügung stehen. Voraussetzung sind jedoch eine ausreichende deutsche Sprachkenntnis und eine entsprechende Compliance.

Andere Schulterscores wie zum Beispiel der mit 12 dichotom aufgebauten Fragen wesentlich einfachere Simple-shoulder-Test [17] sind primär als Fragebogen gedacht und für den Amerikanischen Sprachraum auch validiert, jedoch gibt es bisher noch keine publizierte Version in Deutscher Sprache; gleiches gilt für den ASES- (American shoulder and elbow surgeons-)Score [14]. Der DASH (disability of the arm, shoulder and hand), [12] ist zwar von German et al. [10] als eine Deutsche Version validiert, ist allerdings in seiner Erhebung auch aufwendiger als der ASES-Score oder der Simple-shoulder-Test [23].

Der große Vorteil des CS-Bogens besteht darin, dass nun der von SECEC als auch von der DVSE als Standardinstrument für die Beurteilung der Schulterfunktion empfohlene und in Europa weitläufig eingesetzte CS auch als deutschsprachiger Fragebogen zur Verfügung steht und damit auch ohne klinische Untersuchung erhoben werden kann.

Zusammenfassend lässt sich feststellen, dass der deutsche CS-Bogen ein zwar anspruchsvolles, aber sehr gutes Instrument zur Selbsterhebung der Schulterfunktion durch den Patienten ist. Daher ist er gut als Nachuntersuchungsinstrument nach Schulteroperationen oder Behandlungen geeignet.

Tendenziell stuft der Patient seine Schulterfunktion etwas schlechter ein als der Arzt, was gewährleistet, dass nicht mit Phantasieergebnissen zu rechnen ist. Wenn der Patient bereits präoperativ den Bogen ausfüllt oder den Bogen während des stationären Aufenthalts erklärt bekommt, könnte dies die Genauigkeit des Bogens, v. a. in Hinsicht auf die Kraftmessung, noch verbessern.

Mit Hilfe dieses Bogens könnten große Mulicenterstudien durch ein gleiches Messinstrument weitere Aufschlüsse über die Therapieerfolge von Schultererkrankungen und den Vergleich verschiedener Behandlungsmethoden ermöglichen. Der Bogen kann unter www.smfa-d.de aus dem Internet heruntergeladen werden.