Auch 100 Jahre nach Einführung der klassischen Psychoanalyse waren sich viele Therapieforscher einig, dass es nur unzureichend Hinweise auf die Wirksamkeit dieser Behandlungsmethode gibt. Gerade die Langzeitanalyse galt als unfundiert und zu teuer. Umso erstaunlicher ist nun die Veröffentlichung einer Metaanalyse, die schlussfolgert, dass die Langzeitpsychoanalyse wirkungsvoll ist [1].

Langzeitpsychoanalyse (LZPA) wird inhaltlich definiert als ein auf die Patient-Therapeut-Beziehung fokussierender Prozess, der durch Deutung/Interpretation von Übertragungsprozessen und Widerständen charakterisiert wird (s. auch [2]). Die sehr hochrangig veröffentlichte Studie schlussfolgert weiter, dass die Wirkung der LZPA umso besser wäre, je länger sie dauert. Gewissermaßen als Krönung wird dem Leser nahegelegt, dass LZPA sogar noch effektiver ist als andere Psychotherapieverfahren, wie zum Beispiel die kognitive Therapie. Direkt in den ersten Tagen nach Erscheinen dieses Artikels wurde die Nachricht von Printmedien wie „Die Zeit“ oder „der Spiegel“ offensichtlich sehr bereitwillig aufgegriffen und ausführlich kommentiert. Was passiert hier? Eine Reflektion erscheint notwendig.

Bei genauer Betrachtung wird die Überraschung noch größer. Die Metaanalyse erfüllt nicht die Qualitätskriterien, die heutzutage bei dieser statistischen Methode anzulegen sind, die Schlussfolgerungen (besonders natürlich in den Printmedien, aber auch in der Originalarbeit) sind nicht gerechtfertigt und es stellt sich die Frage, warum die Arbeit so veröffentlicht wurde und auch begeistert überinterpretiert wird. Nachfolgend soll zuerst auf die inhaltlichen und methodischen Probleme eingegangen werden, um anschließend zu diskutieren, welche Konsequenzen aus diesen Ereignissen gezogen werden sollten.

Grundsätzlich gilt, dass eine Metaanalyse nur so gut ist, wie die Studien, die in sie aufgenommen werden. Eine der großen wissenschaftlichen Gefahren zurzeit ist, dass nur noch die Ergebnisse der Metaanalysen beachtet werden, ohne zusätzlich die Originalstudien zu betrachten. Dies geschieht besonders leicht, wenn die Metaanalyse die Meinung des Lesers (und ggf. der Reviewer der wissenschaftlichen Zeitschrift) wiedergibt. Deshalb soll nachfolgend wiederholt auf die Originalstudien eingegangen werden, auf die diese Metaanalyse aufbautFootnote 1.

In die genannte Metaanalyse gingen 11 randomisierte klinische Studien (RCTs) und 12 Beobachtungsstudien („observational studies“) ein. Die zusätzliche Berücksichtigung der Beobachtungsstudien wird damit begründet, dass dadurch ein Einbezug versorgungsnaher Ergebnisse erfolgen würde. Allerdings wird hier außer Acht gelassen, dass Beobachtungsstudien nicht zur kausalen Begründung der Wirksamkeit einer bestimmten Therapieform geeignet sind; ihr Sinn liegt im Vergleich, ob eine wissenschaftlich fundierte Psychotherapie ähnlich effektiv in der Praxis angewandt wird. Werden Beobachtungsstudien jedoch in Kausalitätsanalysen wie hier einbezogen, kommt es zu einer Inflationierung von Effekten und Verzerrung von Ergebnissen, auf die weiter unten noch näher eingegangen wird. Auch wenn die Autoren der Metaanalyse eine Post-hoc-Rechtfertigung durch Vergleich der Effektstärken in RCTs vs. Beobachtungsstudien berichten, dabei unkritisch die Nullhypothese interpretieren, bleibt das Grundproblem von Beobachtungsstudien erhalten: Ähnlich wie in der Pharmaforschung die „Anwendungsbeobachtungen“, so wird auch in der Psychotherapie kaum eine Beobachtungsstudie publiziert, die nicht positive Effekte für die Behandlung beschreibt. Gerade bei der hohen persönlichen Identifikation, die Psychotherapieforscher oft mit einer Therapierichtung haben, dienen viele Anwendungsbeobachtungen nur der Bestätigung der Meinung der Studienleiter, weniger einer wissenschaftlich-kritischen Prüfung. Dass trotz der 100-jährigen Geschichte der LZPA nur 12 Beobachtungsstudien gefunden und aufgenommen werden, bleibt von den Autoren unkommentiert. Selbst bei qualitativ hochwertigen Beobachtungsstudien müssen nachfolgend häufig die ursprünglich postulierten Ergebnisse revidiert werden, da sie sich im Nachhinein als falsch erwiesen [3]. In den nachfolgenden Kommentaren werden wir uns deshalb primär auf die Frage konzentrieren, ob die berichteten RCTs die kausalen Schlüsse der Metaanalyse rechtfertigen.

Die erste Frage einer Metaanalyse betrifft die Definition des interessierenden Treatments und die damit verbundene Auswahl der Studien: Werden jene Therapiestudien inkludiert, auf die sich die Schlussfolgerungen beziehen sollen? Dabei fällt als erstes auf, dass etwa die Hälfte der inkludierten Studien (5 der 11 RCTs) Behandlungsdauern von unter 50 Sitzungen vorsahen. So waren es in der Studie von Dare et al. 24,9 Sitzungen, bei Hoglend et al. 33 Sitzungen oder bei Vinnars et al. 21 Sitzungen, also eindeutige Kurzzeitbehandlungen, die mit den in Deutschland üblichen durchschnittlich 120 Sitzungen Psychoanalyse [4] vom Umfang her wenig gemeinsam haben. Svartberg et al. benennen ihren Ansatz entsprechend korrekt als psychodynamische Kurzzeitbehandlung, trotzdem wurde sie als LZPA in die vorliegende Studie aufgenommen.

Neben der formalen Definition des Treatments ist auch eine inhaltliche Präzisierung wichtig (Treatment-Integrität). So wurde zum Beispiel in einer Nachanalyse der Treatment-Integrität der interpersonellen Therapie (IPT) festgestellt, dass diese umso wirkungsvoller ist, je mehr sie die Methoden der kognitiven Therapie verwendet [5], so dass die Hauptwirkung nicht durch die Spezifika der untersuchten Behandlungsform zustande kam. Bei der vorliegenden Metaanalyse zur LZPA wurde Treatment-Integrität der LZPA nur oberflächlich und zum Teil falsch kategorisiert: Von den eingeschlossenen RCTs nennen Vinnars et al. als Hauptmerkmal ihres Ansatzes den Inhalt „supportiv-expressiv“, Dare et al. beschreiben, dass Übertragungsarbeit nicht der Hauptgegenstand der Therapie in ihrer Studie sein sollte. In der Arbeit von Gregory et al. wird als Hauptinhalt der Psychotherapie beschrieben, dass der affektive Ausdruck verbessert werden sollte und eine kognitive Umstrukturierung angestrebt sei. In allen diesen Fällen kann wohl keine Übereinstimmung mit den üblichen Inhalten einer klassischen LZPA angenommen werden, obwohl dies die Autoren so suggerieren. Zusätzlich ist in manchen der Studien, auf denen die Metaanalyse basierte, ein komplexes Behandlungsprogramm verwendet worden, das nur zu einem Teil psychodynamische Interventionen beinhaltete, die mit diversen anderen Interventionen kombiniert waren (z. B. Bateman und Fonagy). Bei fast allen Studien war unkontrolliert konkurrierende Pharmakotherapie erlaubt (z. B. nahmen über 40% der Patienten in der Studie von Knekt et al. Psychopharmaka), so dass unklar bleibt, auf was positive Veränderungen zurückzuführen sind. Wie kann aus einer solchen Zusammenstellung von Studien geschlossen werden, dass positive Effekte auf Langzeitpsychoanalyse zurückzuführen sind?

Die Bewertung, ob in der Behandlungsgruppe auch das gemacht wurde, was in der Therapieform festgelegt wird („Treatment-Integrität“), ist nicht nur für die interessierenden Behandlungsbedingungen der LZPA wichtig, sondern auch für die verwendeten Vergleichsbedingungen. Gerade im vorliegenden Fall wird von Leichsenring und Rabung [1] geschlussfolgert, LZPA ist besser als andere Vergleichsbehandlungen. In zwei Fällen geben die Autoren an, dass die Kontrollbedingung der RCTs „kognitive Therapie“ gewesen wäre. Im ersten Fall (Bachar et al.) wird allerdings in der Originalstudie beschrieben, dass der Hauptinhalt dieser Vergleichstherapie die Arbeit mit Zurückweisungen und der Ausdruck von Feindseligkeit war. Es ist nicht bekannt, dass dies auf Grundprinzipien der kognitiven Therapie aufbauen würde, und definitiv handelt es sich nicht um das, was als kognitive Therapie (z. B. sensu Beck) bezeichnet wird; vielmehr handelt es sich um eine von den Autoren selbst entwickelte und relativ unstrukturierte Interventionsform. Im zweiten Fall ist die inhaltliche Zuordnung als kognitive Therapie mindestens fraglich (Svartberg et al.). Die Autoren schlussfolgern trotzdem, dass LZPA größere Effektivität als die anderen Formen der Psychotherapie erbringen würde, die in den Vergleichsbedingungen verwendet wurden (S. 1559), und nennen auch explizit die kognitive Therapie. Obwohl diese Aussage für die kognitive Therapie unhaltbar ist, auf zwei mehr oder weniger falsch bewerteten Studien beruht, die nicht spezifisch ausgewertet wurden, soll hier suggeriert werden, die LZPA erbringe bessere Erfolge als kognitive Therapie.

Der zweite zentrale Punkt einer Metaanalyse ist die Beantwortung der Frage, bei welcher Zielgruppe das Treatment wirkt, das hier im Zentrum des Interesses steht. Es ist naheliegend, dass eine einzelne Behandlungsform nicht für alles zwischen Blinddarm und Kopfschmerz geeignet ist, so dass eine Definition der Einschlussdiagnosen notwendig ist. Dabei ist die Orientierung an einer Diagnose (oder Diagnosengruppe) üblich, aber auch andere eindeutige Stichprobenmerkmale könnten herangezogen werden, um diese Präzisierung „Bei wem wirkt das mich interessierende Treatment?“ vorzunehmen.

Im Fall der vorliegenden Metaanalyse unterbleibt eine solche diagnostische Eingrenzung völlig; es reichte, wenn die behandelten Patienten „irgendeine“ psychische Störung hatten. Häufiger vertreten sind bei den eingeschlossenen Studien noch solche, die „Persönlichkeitsstörungen“ behandelten. Bei dieser Gruppe der inkludierten Studien bleibt jedoch im vorliegenden Fall oftmals der diagnostische Prozess unklar, ist unzureichend (keine Verwendung standardisierter Diagnoseverfahren) und nur manchmal werden Komorbiditätsprofile mitgeteilt (wie viele behandelte Personen hatten komorbide Depressionen oder Angststörungen?). Außerdem macht es einen großen Unterschied, ob ängstlich-vermeidende Persönlichkeitsstörungen vorliegen (die üblicherweise als besser behandelbar gelten) oder ob Borderline-Persönlichkeitsstörungen vorliegen, für die auch andere Therapieansätze bisher nur langwierige Behandlungen vorschlagen [6]. Daneben werden aber auch Studien inkludiert, bei denen die vorliegende Störung überhaupt nicht eingegrenzt wurde (z. B. Svartberg et al.; Knekt et al.) oder bei denen die Diagnosen auf unklaren veralteten Konzepten beruhten (z. B. Piper et al.). Bei anderen aufgenommenen Studien litt ein großer Teil der Patienten an Angststörungen oder Depressionen (z. B. Hoglend et al.), also Störungsbilder, für die ökonomische und hoch effektive Kurzzeittherapieverfahren vorliegen, die mit höheren Effektstärken verbunden sind, als die in der Metaanalyse verwendeten Behandlungsverfahren erbringen [7, 8, 9]. Bei zwei Studien wurden Patienten mit Essstörungen behandelt, zum Teil jedoch mit wenig Erfolg (s. unten). Für welches Störungsbild soll nun LZPA indiziert sein? Auch dazu lässt die Metaanalyse keine Schlussfolgerung zu.

Weiterhin berücksichtigen moderne Metaanalysen die Frage der Patientenselektion. Wie an anderer Stelle ausgeführt dürfen Abbrecherraten nicht unberücksichtigt bleiben, wenn Effekte kumuliert werden [10]. Im vorliegenden Fall wurde jedoch keine Intent-to-treat-Analyse durchgeführt, sondern alle Analysen basieren auf den „Completer“-Datensätzen. Die Relevanz dieses Punktes soll an zwei Beispielen veranschaulicht werden: In der Arbeit von Gregory et al. haben 66 Patienten am Vorscreening teilgenommen, Interesse an der Studienteilnahme bekundet und alle Einschlusskriterien erfüllt. 36 dieser 66 Patienten (55%) entscheiden sich jedoch dagegen, an der Studie teilzunehmen, nachdem sie über das Format der Psychotherapieform informiert wurden. In der Studie von Knekt et al. wurden 128 Patienten nach Vorselektion der Behandlungsbedingung LZPA zugewiesen (die hier wirklich einen entsprechenden Umfang hatte). 26 dieser 128 Patienten haben die zuvor ausgesprochene Teilnahmebereitschaft wieder zurückgenommen, als sie erfuhren, dass sie in die LZPA-Bedingung gelost wurden. 99 Patienten haben danach LZPA erhalten, wobei nur von 69 Ergebnisse vorliegen, da unter anderem 21 Patienten aktiv abgebrochen haben, laut Autoren primär wegen Unzufriedenheit mit der Behandlung. Die in der Metaanalyse von Leichsenring und Rabung verwendeten Completer-Daten aus diesen beiden Studien basieren somit im ersten Fall auf 45% der voll vorgescreenten und studienwilligen Personen, im zweiten Fall auf 54%. Eine Nichtberücksichtigung solcher Aspekte führt zu völligen Fehlschlüssen über die Wirksamkeit einer Behandlungsform.

Wie bereits weiter oben aufgeführt haben gerade Beobachtungsstudien, aber auch RCTs, eine starke „Publikations-Bias“, so dass fast ausschließlich solche Studien publiziert werden, die das vom Autor favorisierte Vorgehen bestätigen. Leichsenring und Rabung berichten, dass sie die Publikations-Bias durch die Berechnung von „Fail-safe-N“-Werten kontrollierten, also die Berechnung der Zahl von potenziell unpublizierten Studien mit negativem Befund, die benötigt würden, um den berichteten positiven Befund zu entkräften. Dies ist sehr lobenswert, und es beeindrucken die dramatisch hohen Werte, die für einen sehr stabilen Effekt sprechen würden. Diese vermeintliche Stabilität kommt jedoch dadurch zustande, dass eben wieder die Beobachtungsstudien inkludiert wurden und es zu einer Inflationierung der positiven Effekte kommt. Leichsenring und Rabung [1] haben dies offensichtlich gezielt ausgenützt:

Zur Berechnung der Fail-safe-N-Rate wurden nur Studien herangezogen, die LZPA alleine untersuchten – das sind genau die Beobachtungsstudien, und die vergleichenden RCTs wurden hier ohne offensichtlichen Grund nicht berücksichtigt. Grundsätzlich sind bei ihnen die berichteten Effektstärken dabei unkorrigierte Prä-Post-Effektstärken und berücksichtigen damit weder einen Placeboeffekt, die so genannten „common factors“, noch „regression to the mean“. Daneben wird auch nicht angegeben, was die eingesetzte Zieleffektstärke war, die zur Berechnung der Fail-safe-N-Werte herangezogen wurde. Sinnvoll wäre zum Beispiel, entweder eine Zielgröße von d=0,20 anzugeben, was nach Cohen das Minimum eines schwachen Effektes wäre [11], oder als Zielgröße eine Effektstärke von ca. d=0,45 anzugeben, was bei Psychotherapie als „Placeboeffekt“ zu erwarten wäre [12]. Dem würde die Logik entsprechen, dass man das Verfahren als effektiv bewertet, wenn es wenigstens einen kleinen Effekt oder wenigstens dem Placeboeffekt vergleichbar wäre. Würden im vorliegenden Fall korrekterweise solche Zielgrößen verwendet und nur RCTs inkludiert, so hätten wenige nicht berücksichtigte Studien ausgereicht, um die positiven Effekte zu falsifizieren. Bedenkt man die 100-jährige Geschichte des Verfahrens, so ist es mindestens wahrscheinlich, dass mehr als 11 nicht publizierte RCTs zur LZPT vorliegen, die das vorliegende Bild der 11 RCTs völlig verändern können.

Die Qualität einer wissenschaftlichen Analyse erkennt man auch daran, wie selbstkritisch mit Befunden umgegangen wird, die die persönliche Meinung oder Schlussfolgerung nicht stützen. Wie ist der Befund von Hogland et al. zu interpretieren, dass psychodynamische Therapie, die völlig auf Übertragungsarbeit verzichtet, nicht weniger effektiv ist als übertragungsbasierte psychodynamische Therapie? Oder wie ist es zu werten, dass die angeblich hocheffektive LZPA zum Teil nur minimale Verbesserungen erbringt (z. B. mittlerer SCL-Score bei der Studie von Bateman und Fonagy verbessert sich von 2,5 auf 2,2; Gesunde haben jedoch einen Mittelwert von 0,3!; nur 3 der 21 Personen mit Anorexie in der Studie von Dare et al. werden als „geheilt“ bewertet, und die mittlere Gewichtszunahme in der Behandlungsgruppe beträgt über 12 Monate nur 2,7 kg). Wie leider auch bei vielen anderen Übersichtsarbeiten der Psychotherapie bleibt auch hier das Thema „Nebenwirkungen“ sowie „negative Behandlungsverläufe“ zusätzlich außen vor.

Als letzter, gleichwohl gewichtiger Grund der kritischen Beleuchtung dieser Metaanalyse muss das Fehlen systematischer Ergebnisse zur Stabilität der Behandlungserfolge aufgeführt werden. Es gibt keine Follow-up-Analysen, und es bleibt unbekannt, ob bald wieder Rückfälle auftreten, ob „Behandlungsabhängigkeit“ besteht und die Personen immer länger Behandlung benötigen oder ob die Menschen wirklich befreit und psychisch stabil ihr Leben fortsetzen konnten. Bei einigen Studien ist ein substanzieller Anteil der Patienten weiterhin in Behandlung, und die „Post-Werte“ sind nur Zwischenmessungen (z. B. bei Giesen-Bloo et al.). Was ist ein Psychotherapieverfahren wert, von dem Informationen zur Stabilität der Behandlungserfolge fehlen?

Bei der Zusammenfassung dieser Kritik sind wir uns bewusst, dass keine Metaanalyse perfekt ist. Sicherlich könnte man ebenso bei einigen der Metaanalysen, an denen wir selbst beteiligt waren, Schwachstellen entdecken. Die Häufung an Schwachstellen, wie sie in der vorliegenden Metaanalyse vorzufinden ist, ist allerdings bei weitem nicht mehr zeitgemäß und lässt keine Schlussfolgerungen zu. Dabei möchten wir aber auch betonen, dass vermutlich auch bei kritischerer Betrachtung einzelne der inkludierten Interventionen effektive psychodynamische Behandlungsformen verwendeten; dies trifft ggf. besonders für die kürzeren, strukturierteren psychodynamischen Verfahren zu, die auch Elemente wie „Erarbeiten eines gemeinsamen Störungsmodells“, „Psychoedukation“ oder „kognitive Umstrukturierung“ integrierten. Diese modernen Weiterentwicklungen psychodynamischer Verfahren dürfen aber nicht Legitimation dafür sein, Althergebrachtes weiter zu pflegen. Auch sollte bedacht werden, dass sich Psychotherapieforschung vor allem um die Optimierung und Weiterentwicklung psychologischer Behandlungsmöglichkeiten kümmern muss; ein Festhalten an der klassischen LZPA ist dabei genau so wenig angezeigt wie ein Festhalten an Konditionierungstherapien im Sinne von Skinner oder an der Gesprächstherapie im Sinne von Rogers. Aus allen diesen Richtungen wurden Neuentwicklungen stimuliert, die effektiver, breiter einsetzbar und/oder ökonomischer sind. Und die einer wissenschaftlichen Überprüfung standhalten, auch bei kritischerer Sichtung.

Fazit

Fasst man die Kritik an der Metaanalyse von Leichsenring und Rabung zusammen, so muss man schlussfolgern: Das Gemeinsame der Therapien der inkludierten Interventionen bleibt unklar und ist zumindest bei den wissenschaftlich-hochwertigen aufgenommenen Studien meistens nicht LZPA, die Kontrollinterventionen sind mindestens teilweise falsch zugeordnet, die Zielgruppe an Patienten, für die die Intervention wirken soll, ist nicht definiert, Selektionseffekte/Drop-outs blieben unberücksichtigt, und es gibt keine Hinweise auf längerfristige Wirksamkeit nach Abschluss (oder Zwischenstopp) der Behandlung. Nun kann man entgegnen, dass dies sicher nicht die einzige tendenziöse Zusammenfassung von Studien ist, die im Psychotherapiebereich existiert. Allerdings sind tendenziöse und damit letztendlich falsche Zusammenfassungen von Studien auch kein Kavaliersdelikt: Der volkswirtschaftliche und gesundheitsökonomische Schaden durch eine solche Art der Informationsvermittlung ist immens [13], und der persönliche Schaden für die Patienten durch Fehlinformation der Behandler darf auch bei der Psychotherapie nicht heruntergespielt werden. Durch die hohe Identifikation, die Psychotherapieforscher oftmals mit einem Therapieverfahren haben, ist gerade die Psychotherapieforschung für solche Fehlschlüsse besonders vulnerabel. Hierfür ist auch diese Metaanalyse ein Beispiel.