Das Beck-Depressionsinventar (BDI) [5, 13] ist das weltweit am weitesten verbreitete Selbstbeurteilungsinstrument zur Beurteilung der Depressionsschwere. Zahlreiche Studien bescheinigen dem Verfahren gute psychometrische Gütekriterien wie interne Konsistenz, Retestreliabilität, Konstruktvalidität und Änderungssensitivität unter Behandlung [6, 12]. Mit der 3. und weiteren Revisionen des Diagnostischen und Statistischen Manuals Psychischer Störungen stellte sich jedoch die Frage, inwieweit das BDI geeignet ist, die entsprechenden depressiven Symptomkriterien adäquat abzubilden. So erfasst das Instrument nur 6 der 9 DSM-IV-Kriterien-Symptome vollständig, 2 Kriterien (Schlaf, Appetit) sind nur teilweise, ein weiteres (Agitation) ist überhaupt nicht erfasst. Dagegen enthält das BDI auch Items, die für die Diagnosestellung irrelevant sind. Diese Überlegungen führten 1996 zur Entwicklung des BDI-II [7]. Hauptanliegen war eine Verbesserung der inhaltlichen Validität des Verfahrens durch Aufnahme neuer diagnoserelevanter und Ausschluss diagnoseirrelevanter Items.

Gegenüber dem BDI wurden nur 3 Items in ursprünglicher Form beibehalten (Bestrafungsgefühle, Selbstmordimpulse, Libidoverlust), 3 diagnoseunspezifische Items wurden gestrichen (negatives Körperbild, Arbeitsunfähigkeit, Hypochondrie) und bei den restlichen Items mindestens eine Antwortalternative umformuliert. Der Beurteilungszeitraum der Items wurde in Anlehnung an DSM-IV auf 2 Wochen erweitert [7].

Beck et al. [7] berechneten anhand von ROC-Analysen für das BDI-II neue Cut-Offs zur Einschätzung des Schweregrads einer Depression. Danach zeigen 0–13 Punkte keine oder minimale, 14–19 Punkte milde, 20–28 Punkte moderate, und 29–63 Punkte schwere depressive Symptomatik an.

Publikationen zu Gütekriterien des BDI-II liegen derzeit hauptsächlich aus dem englisch- und spanischsprachigen Raum vor. Faktorenanalytische Untersuchungen identifizierten 2–3 hoch interkorrelierte Faktoren, die dafür sprechen, auch weiterhin den Summenwert des Fragebogens als Maß selbstbeurteilter Depressionsschwere zu verwenden [7]. Die interne Konsistenz des BDI-II liegt in klinischen und nichtklinischen Stichproben im Bereich von 0,84≤α≤0,94 [2, 7, 8, 16, 18, 27, 28]. In einer Patientenstichprobe lag die Retestreliabilität im Einwochenzeitraum bei rtt=0,93 [5]. Mit einer früheren BDI-Version korrelierte das BDI-II im Bereich zwischen r=0,84 und r=0,93 [7, 10], dabei lagen die durchschnittlichen BDI-II-Werte um 2–3 Punkte höher. Dies korrespondiert mit der Erhöhung der Cut-Offs zur Einschätzung der Depressionsschwere (s. oben).

Mit anderen Depressionsskalen korreliert das Verfahren im Bereich von r=0,68–0,89 [2, 7, 16, 27], etwas geringer (0,37≤r≤0,60) mit selbst- und fremdbeurteilter Angst [7, 27, 28] sowie im ähnlichen Bereich mit konstruktnahen kognitiven Skalen [7, 8]. Bislang fehlen Arbeiten zu Zusammenhängen zwischen BDI-II und konstruktfernen Verfahren (z. B. Persönlichkeitstraits). Andere Untersuchungen zeigten, dass das BDI-II zwischen depressiven und Patienten mit anderen psychiatrischen Störungen [2, 17, 23] und zwischen verschiedenen Schweregraden einer Depression [3, 29] differenzieren kann. Damit bescheinigen die internationalen Studien dem BDI-II gute Reliabilitäts- und Validitätskennwerte. Entsprechende Studien im deutschen Sprachraum liegen bislang jedoch nicht vor.

Ziel des vorliegenden Beitrags ist es, erste Ergebnisse zu den psychometrischen Gütekriterien des deutschsprachigen BDI-II [14] vorzustellen, die an verschiedenen klinischen und nichtklinischen Stichproben am Zentralinstitut für Seelische Gesundheit, Mannheim, gewonnen wurden.

Methode

Stichproben

TS 1: Stationär Depressive (n=13)

Diese Patienten (25–54 Jahre, M=43,2 J [SD 9,9], 69% weiblich) füllten während ihres stationären Aufenthalts in der Psychiatrischen Klinik des Zentralinstituts für Seelische Gesundheit, Mannheim, einmalig das BDI-II aus. Behandlungsdiagnosen nach ICD-10 waren F32 und F33, die Patienten waren zum Zeitpunkt der Untersuchung klinisch depressiv im Ausmaß einer major-depressiven Episode (DSM-IV).

TS 2: Nicht remittierte Depressive (n=23)

Diese Patienten (18–70 Jahre, M=40,7 J [SD 10,8], 57% weiblich) sind Teilstichprobe einer DFG-LängsschnittstudieFootnote 1, die während ihres stationären Aufenthalts (T0) am ZI rekrutiert wurde (ICD-10 Behandlungsdiagnosen: F32, F33 und F34.1) und einen (T1) und 6 Monate nach Entlassung (T2) nachuntersucht wurden. TS 2 enthält diejenigen Patienten, die zum Zeitpunkt der BDI-II-Bearbeitung (T0, T1 oder T2) im Strukturierten Klinischen Interview für DSM-IV SKID [30] depressiv im Ausmaß einer major-depressiven Episode (DSM-IV) waren.

TS 3: Entlassene Depressive T1 (n=52)

Diese Patienten (18–70 Jahre, M=43,4 J [SD 12,4], 48% weiblich) repräsentieren die Gesamtstichprobe unipolar depressiver Patienten der DFG-Studie, die zu T1 den BDI-II ausgefüllt hatten. Etwa 25% waren zu diesem Zeitpunkt teil- oder nicht remittiert (SKID).

TS 4: Gemeindestichprobe I (n=89)

Diese Stichprobe ist eine gesunde Gemeindestichprobe aus der Mannheimer Bevölkerung (18–70 Jahre, M=45,9 J [SD 13,0], 49% weiblich), die parallel zur DFG-Patientenstichprobe (TS 3) untersucht wurde.

TS 5: Gemeindestichprobe II (n=118)

Diese unausgelesene Bevölkerungsstichprobe (18–70 Jahre, M=46,6 J [SD 14,8], 61% weiblich) wurde im Rahmen einer genetisch-epidemiologischen Studie einmalig untersucht.Footnote 2

TS 6: Studenten (n=108)

Diese Stichprobe besteht aus Studenten verschiedener Fachrichtungen der Universität Mannheim (18–30 Jahre, M=21,8 J [SD 2,0], 61% weiblich).

Für bestimmte Teilauswertungen wurden TS 1 und TS 2 zur Gruppe der „akut Depressiven“ (G1) zusammengefasst. Patienten aus TS 3, welche zu T1 im SKID keine oder nur geringe Residualsymptomatik (0–2 Depressionssymptome) aufwiesen, repräsentieren die Gruppe der remittierten Patienten (G2), TS 4 bis TS 6 die nichtklinische Stichprobe (G3).

Untersuchungsinstrumente

Deutsche Version des Beck-Depressionsinventars II [14]

Das BDI-II besteht aus 21 vierstufigen Items mit inhaltlichen Aussagen, die nach aufsteigendem Schweregrad geordnet sind. Beurteilungszeitraum sind die letzten 2 Wochen. Die Bearbeitungsdauer liegt zwischen 5 und 10 min. Durchführungs-, Auswertungs- und Interpretationsobjektivität sind durch die standardisierte Vorgabe und Anweisung zur Bestimmung und Interpretation des Summenwerts gegeben. Die deutschsprachige Übersetzung des Fragebogens erfolgte durch die Autoren dieser Arbeit. Dabei wurden zunächst unabhängige Übersetzungen angefertigt. Die gemeinsam abgestimmte deutsche Fassung wurde dann von einer unabhängigen Person ins Amerikanische zurück übersetzt.

Weitere Instrumente

Zur Untersuchung von Validitätsaspekten des BDI-II wurden für verschiedene Stichproben Verfahren eingesetzt, die entweder depressive Symptomatik in der Selbstbeurteilung (Fragebogen zur Depressionsdiagnostik nach DSM-IV FDD-DSM-IV [19], Gesundheitsfragebogen für Patienten PHQ-D [24], WHO-5 Wellbeing Index [4]) oder Fremdbeurteilung (SKID [30], Montgomery-Asperg-Depressionsskala MADRS [26]) erfassen. Zudem wurden Verfahren zu depressionsnahen kognitiven Konstrukten (Response Styles Questionnaire, Skala Rumination RSQ-R [21], Fragebogen zur Erfassung der Handlungs- und Lageorientierung HAKEMP [22], Fragebogen zur Dysfunktionalen und Funktionalen Selbstaufmerksamkeit DFS [15], Selbstwertskala nach Rosenberg SES [11]) sowie der WHO-Fragebogen zur gesundheitsbezogenen Lebensqualität WHOQOL-BREF [1] eingesetzt. In einer Teilstichprobe (TS 5) kam das NEO-5-Faktoren-Inventar NEO-FFI [9] als Persönlichkeitsinventar zur Anwendung. In TS 5 und TS 6 wurde zusätzlich das Beck-Angstinventar BAI [25] eingesetzt.

Ergebnisse

Teststatistiken

Die Verteilungsparameter des BDI-II-Summenwerts für akut Depressive (G1), remittierte Depressive (G2) und die nichtklinische Stichprobe (G3) sind in Tab. 1 dargestellt. Die Konfidenzintervalle der jeweiligen Mittelwerte überschneiden sich nicht. Der Mittelwert der akut Depressiven liegt im Bereich „schwere Depression“ (≥29), der der remittierten Patienten im Bereich „milde Depression“ (14–19) und der der nichtklinischen Stichprobe im Berech „keine/minimale Depression“ (≤13).

Tab. 1 Verteilungsparameter des BDI-II-Summenwerts in verschiedenen Mannheimer Stichproben

Interne Konsistenz

Die Cronbachs α-Koeffizienten der internen Konsistenz des BDI-II liegen für sämtliche Teilstichproben im Bereich von α≥0,84 [akut Depressive (n=36): α=0,84, entlassene Depressive (n=52) α=0,90, nichtklinische Stichprobe (n=315) α=0,89].

Retestreliabilität

Bei 23 Studenten der TS 6 wurde das BDI-II im Abstand von 3 Wochen wiederholt. Die Retestkorrelation betrug r=0,78 (p<0,001). In der DFG-Gemeindestichprobe (TS 4, n=86) resultierte ein Retestkoeffizient (5 Monate) von r=0,78 (p<0,001). Für die Patientenstichprobe (TS 3, n=50) betrug dieser Koeffizient r=0,47 (p<0,001), hier sind jedoch a priori keine vergleichbar hohen Retestkoeffizienten zu erwarten, da von interindividuell variablen nachstationären Verläufen auszugehen ist.

Inhaltsvalidität

Das BDI-II wurde entwickelt, um depressive Symptome nach DSM-IV abzubilden. Alle relevanten Depressionskriterien nach DSM-IV sind nun in Itemform aufgeführt, so dass die inhaltliche Validität als gegeben betrachtet werden kann.

Konvergente und diskriminante Validität

In Tab. 2 sind die Korrelationen des BDI-II mit konstruktnahen und konstruktfernen Verfahren aufgelistet.

Tab. 2 Korrelationen zwischen BDI-II und ausgewählten Skalen (Mannheimer Stichproben, Messzeitpunkt T1)

Hohe Übereinstimmungen resultierten in allen Stichproben mit der selbstbeurteilten Depressivität anhand des FDD-DSM-IV (0,72–0,89), ähnlich mit der Depressionsskala PHQ-9 (0,74). Etwas niedrigere Koeffizienten resultierten mit der fremdbeurteilten Depressivität (MADRS, r=0,68–0,70). Der WHO-5 Wellbeing Index psychischen Wohlbefindens korreliert mit dem BDI-II im Bereich von −0,49≤r≤−0,63. Die Korrelation mit dem BAI (TS 5, TS 6) betrug r=0,65–0,69.

Die Korrelationen mit konstruktnahen kognitiven Skalen liegen im mittleren bis hohen Bereich (Tab. 2). Die höchsten Zusammenhänge fanden sich mit den Skalen „Selbstwirksamkeit“ und „Selbstwertgefühl“, insbesondere in den nichtklinischen Stichproben. Im mittleren Bereich liegen die Korrelationen mit Skalen zur funktionalen und dysfunktionalen Selbstaufmerksamkeit (RSQ-R, DFS, HAKEMP). Die Korrelationskoeffizienten von BDI-II und den WHOQOL-BREF-Skalen zur gesundheitsbezogenen Lebensqualität variieren im mittleren bis hohen Bereich, die höchsten Koeffizienten resultierten für die körperliche und die psychische Lebensqualitätsdomäne und die allgemeine Lebensqualität.

Mit Ausnahme der NEO-FFI-Subskala „Neurotizismus“ (TS 5, r=0,70) liegen die Zusammenhangskoeffizienten der weiteren Skalen „Extraversion“, „Offenheit“, Verträglichkeit“ und „Gewissenhaftigkeit“ mit dem BDI-II-Summenwert im unteren bis mittleren Bereich und damit für die Mehrzahl der Subskalen deutlich niedriger als mit konstruktverwandten Skalen (s. oben).

Diagnostische Diskriminationsfähigkeit

Hinweise auf eine gute Differenzierungsfähigkeit des BDI-II im Hinblick auf die Schwere der depressiven Symptomatik zeigte bereits der Vergleich der Verteilungen der Summenwerte der Gruppen G1, G2 und G3 (s. oben). Auch für den nachstationären Zeitraum gelingt eine gute Differenzierung von Gruppen nach Schweregrad. Vergleicht man die remittierten Patienten zu T1 (G2, n=39) mit teil- und nichtremittierten Patienten aus TS 3 (mindestens 3 klinisch relevante SKID-Symptome oder SKID-Diagnose einer majoren Depression zu T1 sind erfüllt, n=13), so resultieren hochsignifikante Differenzen (Vollremittierte: M=15,0 [SD=8,5], Teil- und Nichtremittierte: M=25,7 [SD=11,6], t (1, 51) = −3,58, p<0,001).

Ähnlich wurde anhand der Verteilung der MADRS-Summenwerte die Stichprobe TS 3 in die Subgruppen leichte (0–2 Punkte, n=18), mittlere (3–10, n=19) und ausgeprägte fremdbeurteilte Depressivität (≥11, n=15) unterteilt. Eine Varianzanalyse mit dem Faktor Gruppenzugehörigkeit lieferte einen hochsignifikanten Globalwert bezüglich der BDI-II-Summenscores (Gruppe 1:10,1 [SD 7,7]; Gruppe 2:17,1 [SD 6,5]; Gruppe 3:27,4 [SD 9,6]; F [2,49]=19,8, p<0,001). Paarweise durchgeführte Post-hoc-Vergleiche (Bonferroni-adjustiert) zeigten für alle Gruppenvergleiche signifikante Unterschiede in den durchschnittlichen Summenwerten des BDI-II (ps<0,03).

Änderungssensitivität

In TS 3 (n=50) betrug die Korrelation der Veränderungswerte aus BDI-II und FDD-DSM-IV r=0,73 (p<0,001), die der Veränderungswerte aus BDI-II und MADRS r=0,69 (p<0,001).

Zusammenhänge mit soziodemographischen Merkmalen

Der BDI-II-Summenwert war weder bei den akut Depressiven [G1 (n=36), r=−0,05] noch bei den remittierten Patienten nach Entlassung [G2 (n=39), r=−0,20] noch in der nichtklinischen Stichprobe [G3 (n=315), r=−0,01] signifikant mit dem Alter assoziiert. Auch wurden keine Geschlechtsunterschiede im BDI-Summenwert identifiziert (alle ps>0,20). Ähnliches gilt für das Schulbildungsniveau, das nur für die Teilstichproben TS 3 und TS 4 vorlag (TS 3: r=−0,01, TS 4: r=−0,04).

Diskussion

Mit der vorliegenden Arbeit liegen erstmals Ergebnisse zu psychometrischen Gütekriterien der deutschen Version des BDI-II [14] vor. Der ursprüngliche Fragebogen [5] wurde im Rahmen der amerikanischen Revision [7] zahlreichen Veränderungen unterworfen.

Inhaltsvalidität

Hauptintention von Beck [7] war es, die inhaltliche Validität und damit die diagnostische Güte des Verfahrens zu verbessern. Die Aufnahme neuer, DSM-IV-relevanter Items erhöht die diagnostische Sensitivität des Verfahrens, während die Streichung diagnoseirrelevanter Items dessen diagnostische Spezifität verbessert. Nach dem Fragebogen zu Depressionsdiagnostik nach DSM-IV [19] und dem Depressionsmodul des Gesundheitsfragebogens für Patienten [24] handelt es sich beim BDI-II nun um das 3. Selbstbeurteilungsinstrument im deutschen Sprachraum mit dem Anspruch, den Schweregrad depressiver Symptomatik in direkter Anlehnung an die Symptomkriterien einer Major-Depression nach DSM-IV abzubilden. Allerdings sind die einzelnen DSM-IV-Kriterien im BDI-II, im Gegensatz zu den beiden anderen Verfahren [19, 24], nicht gleichwertig berücksichtigt. So geht das depressive Begleitsymptom „Wertlosigkeit/Schuldgefühle“ mit insgesamt 6 Items mit dem höchsten Gewicht in die Berechnung des Summenwerts ein. Damit legt das BDI-II – ähnlich wie seine Vorläuferversion – im Vergleich zu DSM-IV ein starkes Gewicht auf kognitive Depressionssymptome und spiegelt damit den kognitionstheoretischen Ansatz von Beck wider. Möglicherweise ist das Verfahren damit besonders sensitiv zur Messung von Effekten kognitiver Therapien, während andere – bezüglich der DSM-IV-Kriterien ausgewogenere – Verfahren besser für Pharmastudien einsetzbar sind oder mit Fremdratings übereinstimmen. Dies wäre jedoch in zukünftigen Studien zu prüfen.

Die Ausweitung des Beurteilungszeitraums auf 2 Wochen dient ähnlich wie die Streichung diagnoseirrelevanter Items dazu, die diagnostische Spezifität des Verfahrens zu erhöhen. Bislang ist allerdings ungeklärt, inwieweit die Validität der Selbsteinschätzung durch eine solche Ausweitung tangiert wird. Auch ist es möglich, dass mit der Ausweitung des Zeitrahmens eine höhere Spezifität mit einer geringeren Sensitivität des Verfahrens erkauft wird [19]. Auch dieser Aspekt könnte anhand geeigneter Studien geprüft werden.

Trotz dieser Einschränkungen lässt sich anhand der berichteten psychometrischen Gütekriterien feststellen, dass mit dem deutschen BDI-II ein Verfahren vorliegt, das gute Reliabilitäts- und Validitätskennwerte aufweist, die mit denen der amerikanischen Originalversion vergleichbar sind. Der Einsatz des Fragebogens in verschiedenen Quer- und Längsschnittstudien an depressiven und nichtklinischen Stichproben im Rahmen der vorliegenden Arbeit ermöglichte es darüber hinaus, Befunde zu psychometrischen Gütekriterien des BDI-II darzustellen, die über die bisher international publizierten Evaluationen des Verfahrens hinausgehen.

Interne Konsistenz und Retestreliabilität

Die internen Konsistenzwerte (α≥0,84) lassen auf eine ausreichende Homogenität des Verfahrens schließen, die es rechtfertigt, den Summenwert des BDI-II als Maß der Depressionsschwere zu verwenden. Mit Koeffizienten von r>0,75 (3 Wochen, 5 Monate) in den beiden nichtklinischen Stichproben kann die Retestreliabilität als zufrieden stellend bezeichnet werden.

Konvergente und diskriminante Validität

Das BDI-II weist hohe Übereinstimmung mit anderen Maßen depressiver Selbstbeurteilung auf, die ebenfalls auf DSM-IV-Basis konstruiert sind (FDD-DSM-IV, PHQ-9). Ähnliche Übereinstimmungen mit depressiven Selbstbeurteilungen werden auch in der Literatur berichtet [8, 16, 17]. Nur geringfügig niedriger liegt die Übereinstimmung des BDI-II mit der fremdbeurteilten Depression (MADRS).

Die Übereinstimmung mit selbstbeurteilter Angst in zwei nichtklinischen Stichproben (r=0,65–0,69) liegt geringfügig über den in der Literatur berichteten Koeffizienten [7, 27] und sprechen für eine eher schlechte Differenzierbarkeit der Konstrukte Angst und Depression, zumindest auf Selbstbeurteilungsebene. Für die depressionsnahen kognitiven Skalen resultierten erwartungsgemäß signifikante, dem Betrag nach mittlere Korrelationen (vgl. [15]). Im Bereich subjektiver Lebensqualität fanden sich die engsten Zusammenhänge mit den WHOQOL-BREF-Skalen „psychische Gesundheit“ und „körperliche Gesundheit“. Hier sind partielle Konstruktüberlappungen zu berücksichtigen, die durch ähnliche Items bedingt sind (z. B. Fragen zu Schlaf, Energie und Konzentration). Auch die hohen Korrelationen mit der allgemeinen Lebensqualität passen zu Literaturbefunden, die zeigen, dass globale Ratings zur Lebensqualität hauptsächlich die Schwere der Depressivität widerspiegeln [20].

Das BDI-II wies niedrige bis mäßige Korrelationen mit den Subskalen Extraversion, Offenheit, Verträglichkeit und Gewissenhaftigkeit des NEO-FFI auf. Dies kann als Hinweis auf die diskriminante Validität des BDI-II gewertet werden, da der NEO-FFI mit Ausnahme der Subskala Neurotizismus relativ symptomferne Persönlichkeitsdimensionen erfasst. Die Skala Neurotizismus korreliert aufgrund inhaltlicher Überlappungen dagegen sehr hoch mit dem BDI-II, sie erfasst u. a. emotionale und kognitive Aspekte von Depression [9].

Diagnostische Diskriminationsfähigkeit und Änderungssensitivität

Der Summenwert des BDI-II differenzierte gut zwischen depressiven Patienten und Gesunden und zwischen verschiedenen Schweregraden depressiver Symptomatik. Hohe Korrelationen zwischen den Änderungswerten des BDI-II mit denen anderer Depressionsskalen bescheinigen dem Verfahren auch eine gute Änderungssensitivität.

Fazit für die Praxis

Mit den vorliegenden Ergebnissen zur psychometrischen Güte des BDI-II kann dieses unseres Erachtens nun für den Einsatz im deutschen Sprachraum empfohlen werden. Das BDI-II wird auch zukünftig international eine führende Rolle als Selbstrating depressiver Beschwerden spielen und breite Anwendung in der Therapie- und Verlaufsforschung sowie in der klinischen Praxis finden. Durch die Publikation der deutschen Version des Fragebogens [14] werden nun auch direkte Vergleiche mit entsprechenden internationalen Studien möglich sein.

Wichtig erscheint nun, weitere Studien zum BDI-II in einem breiten Anwendungsfeld durchzuführen. Forschungsbedarf besteht insbesondere für die Einbeziehung von Patienten mit anderen psychischen und somatischen Primärerkrankungen bzw. komorbiden Störungen und für Untersuchungen zu Kennwerten des BDI-II unter anderen Rahmenbedingungen, wie im primären Versorgungsbereich und in der Rehabilitation.