Einleitung

Arthrose ist die weltweit häufigste Gelenkerkrankung bei Erwachsenen [11, 25]. In epidemiologischen Studien wird sie in der Regel durch Röntgenbefunde und Symptome definiert [33]. Etwa ein Drittel aller Erwachsenen hat radiologische Zeichen einer Arthrose [11]. Eine klinisch relevante Erkrankung des Knies, der Hand oder der Hüfte – in Bezug auf chronischen Schmerz und/oder Beeinträchtigung – fand sich dagegen lediglich bei 8,9 % der erwachsenen Bevölkerung [2]. Die Inzidenz und Prävalenz der Arthrose steigen. Ein Zusammenhang mit der Alterung der Bevölkerung und zunehmender Adipositas ist wahrscheinlich [25]. In aktuellen Leitlinien des American College of Rheumatology (ACR; [17]) werden sowohl nichtmedikamentöse als auch medikamentöse Behandlungsverfahren empfohlen. Das ACR hat eine klare Empfehlung für Opioidanalgetika bei Patienten ausgesprochen, die nach fehlgeschlagener medikamentöser Therapie eine Totalendoprothese ablehnen oder bei denen dieses Verfahren kontraindiziert ist. Ein 2009 veröffentlichtes Cochrane-Review zu Opioiden bei Arthroseschmerz in Hüfte oder Knie schlussfolgerte jedoch, dass das stark erhöhte Risiko unerwünschter Ereignisse den geringen bis mäßigen positiven Effekt von Nicht-Tramadol-Opioiden überwiegt. Nicht-Tramadol-Opioide sollen daher nicht routinemäßig eingesetzt werden, auch nicht bei starkem Arthroseschmerz [27].

In der Diskussion um den Einsatz von Opioiden bei Arthrose muss auch die Dauer der Behandlung bedacht werden. Aus klinischer Sicht könnte die Kurzzeitopioidtherapie (< 4 Wochen) bei „akut-auf-chronischem“ Arthroseschmerz angebracht sein. Ob jedoch eine Langzeitopioidtherapie bei chronischem Arthroseschmerz klinisch von Nutzen ist, bleibt umstritten. Die Langzeitopioidtherapie wurde definiert als tägliche oder beinahe tägliche Verwendung von Opioiden über mindestens 90 Tage. In der Praxis werden sie allerdings oft zeitlich unbegrenzt eingesetzt [30]. Eine systematische Übersichtsarbeit zur Opioidtherapie bei chronischem Kreuzschmerz unterschied kurz- (4–12 Wochen), mittel- (13–26 Wochen) und langfristige Studien (> 26 Wochen; [5]).

Unserem Wissen nach deckte das letzte systematische Review zu Opioiden bei chronischem Arthroseschmerz die Literatur bis Juli 2008 ab und schloss Kurzzeitstudien (< 4 Wochen) in die Analyse der Wirksamkeit und Risiken ein. Studien zu Opioidagonisten mit zusätzlichem Wirkmechanismus (z. B. Tramadol oder Tapentadol) waren ausgeschlossen [27]. In der Zwischenzeit wurden neue randomisierte, kontrollierte Studien (RCT) mit Opioiden bei chronischem Arthroseschmerz publiziert.

Im Rahmen der Revision der deutschen Leitlinie zur Langzeitanwendung von Opioiden bei chronischen nicht-tumorbedingten Schmerzen (LONTS, 2008 [28]) aktualisierten wir daher die Literatursuche systematischer Übersichtsbeiträge zu Opioiden bei Arthroseschmerz. Ziel dieser Arbeit war es, die Wirksamkeit, Verträglichkeit und Sicherheit von Opioiden im Vergleich zu Placebo bei Patienten mit chronischem Arthroseschmerz in placebokontrollierten RCT mit einer Länge von ≥ 4 Wochen zu bestimmen.

Methoden

Das Review wurde gemäß dem Preferred-Reporting-Items-for-Systematic-Reviews-and-Meta-Analyses(PRISMA)-Statement [22] und nach den Empfehlungen der Cochrane Collaboration [15] durchgeführt.

Ein- und Ausschlusskriterien

Studientypen

Wir schlossen voll publizierte doppelblinde randomisierte, kontrollierte Studien (RCT) ein, die ein Opioid mit Placebo (reines oder Pseudoplacebo) in therapeutischer Anwendung bei Arthroseschmerz verglichen. Berücksichtigung fanden Arbeiten mit parallelem oder Enriched-enrollment-randomized-withdrawal(EERW)-Design. Cross-over-Studien wurden eingeschlossen, wenn

  • Daten zu den beiden Phasen separat aufgeführt waren,

  • Daten publiziert wurden, die einen statistisch signifikanten Überhangeffekt („carry-over effect“) ausschlossen oder

  • im Falle eines signifikanten Überhangeffekts entsprechende statistische Adjustierungen erfolgt waren.

Die Studiendauer sollte mindestens 4 Wochen betragen (Aufdosierungs- und Erhaltungsphase bei parallelem und Cross-over-Design; doppelblinde Absetzphase bei EERW-Design). Pro Behandlungsarm sollten die Studien mindestens 10 Patienten einschließen.

Die Endpunkte gruppierten wir gemäß der Länge des Follow-ups nach Randomisierung, wie von Chaparro et al. [5] vorgeschlagen: kurz- (4–12 Wochen), mittel- (12–26 Wochen) und langfristig (> 26 Wochen).

Hinsichtlich der Publikationssprache bestanden keine Einschränkungen.

Ausgeschlossen wurden RCT mit Paralleldesign mit einer Ausschleichphase nach einer offenen Vorbereitungsphase, woran sich ein doppelblinder, paralleler Studienabschnitt mit den Respondern aus der offenen Vorbereitungsphase anschloss. Ausgeschlossen wurden auch Studien mit einer Erhaltungs- oder Absetzphase von < 4 Wochen; Studien mit experimentellem Design (d. h., der primäre Zweck war die Untersuchung von Schmerzmechanismen und nicht die Schmerzlinderung) und Studien, die lediglich als Abstract veröffentlicht waren. Ebenfalls keine Berücksichtigung fanden Studien, in denen verschiedene Dosierungen eines Opioids ohne Placebokontrollgruppe verglichen wurden.

Teilnehmer

Eingeschlossen wurden Frauen und Männer jeden Alters, unabhängig von der ethnischen Herkunft, soweit bei ihnen eine klinisch oder röntgendiagnostisch bestätigte Arthrose an einem peripheren Gelenk vorlag und damit zusammenhängend seit mindestens 3 Monaten Schmerzen bestanden. Studien, die nur Patienten mit einer entzündlichen Gelenkerkrankung wie rheumatoider Arthritis einschlossen, wurden nicht berücksichtigt. Ausgeschlossen waren auch Studien mit gemischten Stichproben (Teilnehmer mit Arthrose- und Kreuzschmerz), soweit die Daten der beiden Gruppen nicht getrennt aufgeführt waren.

Interventionsformen

Wir schlossen Studien ein, in denen die Verwendung eines ambulant verschriebenen Opioids über mindestens 4 Wochen untersucht wurde. Berücksichtigt wurden Studien mit oraler oder transdermaler Opioidapplikation.

Wir schlossen Studien ein, in denen Opioide mit Formulierungen zur Verhinderung von Missbrauch kombiniert wurden [“abuse deterrent formulations“ (ADF), z. B. Naloxon].

Eingeschlossen wurden Studien mit Tramadol, einem zentral wirkenden synthetischen Opioidanalgetikum, das über zwei komplementäre Wirkmechanismen verfügt, zum einen die Bindung der Ausgangssubstanz und des M1-Metaboliten an μ-Opioid-Rezeptoren, zum anderen eine Hemmung der Noradrenalin- und Serotoninwiederaufnahme. Ebenfalls eingeschlossen wurden Studien mit Tapentadol. Auch diese Substanz hat als μ-Rezeptor-Agonist und Noradrenalinwiederaufnahmehemmer zwei Wirkmechanismen. Beide Substanzen flossen in diese Übersichtsarbeit ein, da die deutschen Arzneimittelbehörden sie als Opioide klassifizieren.

Berücksichtigt wurden Studien mit Vergleich von Opioid und Placebo.

Ausgeschlossen wurden Studien, in denen i.v. applizierte Opioide (einschließlich implantierbare Pumpen) untersucht wurden. Gründe waren die Invasivität der Therapie und die eingeschränkte klinische Bedeutung im ambulanten Bereich. Auch die Wirksamkeit von Opioiden bei Verwendung rückenmarksnaher implantierbarer Pumpen bezogen wir nicht ein, da sie bereits an anderer Stelle thematisiert wurde [26]. Wir schlossen Studien aus, in denen primär die Wirksamkeit von Opioiden als Bedarfsmedikation geprüft wurde.

Ausgeschlossen wurden Studien, in denen Nicht-Opioidagonisten in einer festen Kombination mit Opioiden eingesetzt wurden (beispielsweise Tramadol mit Paracetamol), da eine Unterscheidung der Opioidwirkung von den Effekten des anderen Analgetikums nicht möglich ist. Eine beschränkte Bedarfsmedikation mit Nichtopioiden war erlaubt.

Unberücksichtigt blieben Studien, in denen ein bestimmtes Opioid mit einer Kombination aus demselben Opioid und ADF verglichen wurde (z. B. Oxycodon mit und ohne Naloxon) oder in denen die Kombination zweier Opioide einem einzelnen Opioid gegenübergestellt wurde.

Vergleiche von Opioiden mit nichtmedikamentösen Behandlungen wurden nicht einbezogen. Zuletzt wurden auch Studien mit Propoxyphen ausgeschlossen, da die Substanz vom Markt genommen worden ist [US Food and Drug Administration (FDA), Pressemitteilung vom 19.11.2010].

Typen von Studienendpunkten

Die Auswahl der Endpunkte basierte auf den Empfehlungen der ACTINPAIN Writing Group der International Association for the Study of Pain (IASP) Special Interest Group (SIG) on Systematic Reviews in Pain Relief, zudem auf den Empfehlungen der Cochrane Pain, Palliative and Supportive Care Systematic Review Group zur Publikation der Metaanalysen von RCT bei chronischem Schmerz [23]. Die Schmerzintensität wurde als zusätzlicher Endpunkt berücksichtigt, da die meisten vor 2005 durchgeführten Studien keine Responder-Analysen beinhalteten [6, 27].

Endpunkte

Wirksamkeit

  1. 1.

    Einschätzung der Schmerzintensität

  2. 2.

    Anteil der Patienten, die eine 50 %ige Schmerzlinderung angaben (Responder)

  3. 3.

    Allgemeine Besserung [Patient Global Impression of Change (PGIC)]: Zahl der Patienten, die eine starke oder sehr starke Besserung angaben

  4. 4.

    Funktionsfähigkeit: Beispiele für Endpunkte der funktionellen Beeinträchtigung, die folgendermaßen extrahiert werden konnten: Brief Pain Inventory (BPI); Multidimensional Pain Inventory (MPI), körperliche Funktionsfähigkeit; Western Ontario and McMaster Universities Arthritis Index (WOMAC); Neck Disability Index (NDI); Oswestry Disability Index (ODI); Pain Disability Index (PDI), körperliche Behinderung; Roland Disability Questionnaire (RDQ); Short Form 36 (SF-36) oder SF-12 (Skala der körperlichen Funktionsfähigkeit). Wurden sowohl krankheitsspezifische als auch -unspezifische Instrumente eingesetzt, bevorzugten wir erstere Form, beispielsweise den FIQ gegenüber dem PDI oder WOMAC gegenüber der SF-36-Skala der körperlichen Funktionsfähigkeit.

  5. 5.

    Anteil der Patienten, die die Studie wegen fehlender Wirksamkeit abbrachen

Studien, deren primärer Endpunkt keiner der fünf oben definierten Wirksamkeitsendpunkte war, wurden ausgeschlossen.

Verträglichkeit

  1. 1.

    Anteil der Patienten, die die Studie wegen unerwünschter Ereignisse abbrachen

Sicherheit

  1. 1.

    Anteil der Patienten mit schwerem unerwünschtem Ereignis

  2. 2.

    Anteil der Patienten, die im Verlauf der Studie verstarben

Verfahren zur Identifizierung von Studien

Elektronische Suche

In dieser Übersichtsarbeit wurde die Literaturrecherche der ersten LONTS-Version, die Publikationen bis Oktober 2008 abdeckt [28], aktualisiert und ausgeweitet. Die aktualisierte und erweiterte Suche schloss das Cochrane Central Register of Controlled Trials (CENTRAL), MEDLINE und Scopus von Oktober 2008 bis Oktober 2013 und alle Arten von CNTS ein. Durchgeführt wurde die Suche von PK. Sämtliche Sprachen wurden berücksichtigt. Eine detaillierte Beschreibung der PubMed-Suchstrategie findet sich im Supplementary Material, Tab. 1.

Suche in anderen Quellen

Wir durchsuchten die Literaturverzeichnisse geprüfter Beiträge und riefen relevante Artikel ab. Des Weiteren sichteten wir die Literaturverweise aktueller systematischer Übersichtsbeiträge zur Langzeitopioidtherapie bei CNTS [13, 18, 20, 21] und Arthroseschmerz [6, 27]. Die Steuergruppe der LONTS-Aktualisierung wurde um Unterstützung bei der Suche nach voll publizierten Studien gebeten, die uns möglicherweise entgangen waren. Wenn Daten in den Originalpublikationen nicht berichtet waren, suchten wir nach ihnen auf www.clinicaltrials.gov.

Datensammlung und -analyse

Studienauswahl

Zwei Autoren (PW, WH) prüften unabhängig anhand der Titel, Zusammenfassungen und Schlüsselwörter, ob die mit der Suchstrategie gefundenen Studien die Einschlusskriterien erfüllten. Soweit die Studien im Einklang mit den Kriterien zu stehen schienen oder ihr Einschluss unsicher war, wurde der Volltext herangezogen. Diese Beiträge wurden auf ihren Einschluss hin gesichtet. Waren die Autoren unterschiedlicher Meinung, wurde im Gespräch eine Einigung herbeigeführt.

Datenextraktion

Anhand standardisierter Formblätter extrahierten die Autoren in drei Paaren (CS, WH; FP, WH; RS, WH) unabhängig Daten zu Ein- und Ausschlusskriterien der Studien, Teilnehmermerkmalen, Interventionsgruppen, klinischen Settings, Interventionen, zum Studienland und zur Studienfinanzierung. Waren die Daten nicht in einem für die Datenextraktion geeigneten Format verfügbar, verzichteten wir auf eine Anfrage bei den Studienautoren zur Klärung des Problems. Bei Meinungsverschiedenheiten wurde im Gespräch eine Einigung herbeigeführt.

Umgang mit fehlenden Daten

Wenn sowohl Baseline-observation-carried-forward(BOCF)- als auch Last-obervation-carried-forward(LOCF)-Daten für eine Intention-to-treat(ITT)-Analyse angeführt waren, gaben wir den BOCF-Daten den Vorzug [24].

Fehlten Mittelwerte (MW) oder Standardabweichungen (SD), berechneten wir sie aus den t-Werten, Konfidenzintervallen (KI) oder Standardfehlern, soweit diese im Beitrag angegeben waren [15]. Ließen sich fehlende SD nicht aus diesen Werten ermitteln, wurde die Studie von der Analyse ausgeschlossen.

Maße des Therapieeffekts

Als Effektmaße wurden die absolute Risikoreduktion (RD) für dichotome Daten und die standardisierte Mittelwertdifferenz (SMD) für kontinuierliche Daten (Schmerzintensität, körperliche Funktionsfähigkeit) verwendet. Zur Berechnung wurde ein Random-effects-Modell verwendet (inverses Varianzverfahren). Für Subgruppenanalysen dichotomer Ergebnisse berechneten wir relative Risiken (RR). Die Unsicherheit wurde in 95 %-Konfidenzintervallen (95 %-KI) angegeben. Als Schwellenwert für einen „relevanten Nutzen“ oder „relevanten Schaden“ wurde für kategoriale Variablen eine relative Risikoreduktion (RRR) oder relative Risikoerhöhung (RRI) ≥ 25% festgelegt [5]. Mithilfe der Kategorien nach Cohen ermittelten wir die Effektgröße, berechnet mit SMD, wobei Hedges-g-Werte von 0,2 als klein, Werte von 0,5 als moderat und Werte von 0,8 als groß angesehen wurden [8]. g-Werte < 0,2 betrachteten wir als unwesentliche Effektgröße. Ein minimal bedeutsamer Unterschied („minimal important difference“) wurde bei einer SMD ≥ 0,2 angenommen [10].

Die Zahl an Patienten, die für ein zusätzliches positives (NNTB) oder ein zusätzliches schädliches Resultat (NNTH) behandelt werden müssen, wurde für dichotome Variablen ermittelt [50 %ige Schmerzreduktion (Responder); Patient Global Impression of Change (PGIC) Scale; Behandlungsabbrüche wegen unerwünschter Ereignisse; schwere unerwünschte Ereignisse und Todesfälle]. Hierbei kam ein Rechenprogramm der Cochrane Musculoskeletal Group zur Anwendung (persönlicher Kontakt).

Subgruppenvergleiche erfolgten mithilfe eines Interaktionstests [1].

Aspekt der Analyseeinheit

Wurden mehrere Opioidarme mit einer Placebogruppe verglichen, passten wir die Zahl der Teilnehmer in der Placebogruppe entsprechend der Zahl an Opioidarmen für kontinuierliche Endpunkte an.

Datenauswertung

Mithilfe eines Random-effects-Modells (inverses Varianzverfahren) wurden Daten aus RCT gepoolt, in denen Opioide mit Placebokontrollen verglichen wurden. Zur Beschreibung der prozentualen Variabilität von Effektschätzern, die durch Heterogenität bedingt ist, wurde der I2-Test angewendet. I2-Werte über 50 % zeigen eine hohe, Werte zwischen 25 und 50 % eine mäßige und Werte unter 25 % eine niedrige Heterogenität an [15].

Das Risiko eines systematischen Fehlers wurde für jede Studie von drei Autorenpaaren (CS, WH; FP, WH; RS, WH) unabhängig geprüft. Hierzu wurden 8 von der Cochrane Collaboration empfohlene Kriterien herangezogen (s. Supplementary Material, Tab. 2; [5]). Als qualitativ hochwertig (geringes Risiko eines systematischen Fehlers) wurden Studien definiert, die 6–8 Validitätskriterien erfüllten; Studien von mäßiger Qualität (mäßiges Risiko eines systematischen Fehlers) erfüllten 3–5, Studien von niedriger Qualität (hohes Risiko eines systematischen Fehlers) 0–2 der 8 Kriterien.

Die Methode des Grading of Recommendations Assessment, Development and Evaluation (GRADE) wurde zur Bewertung der Gesamtqualität der Evidenz gewählt [14], definiert als Maß des Vertrauens in die Schätzungen des Behandlungsnutzens und der schädlichen Wirkungen. Die Qualität wurde für jeden der 8 Qualitätsindikatoren getrennt bewertet. Im Folgenden sind Faktoren aufgeführt, bei deren Vorliegen die Evidenzqualität um jeweils eine Stufe herabgesetzt wurde:

  • Einschränkungen des Studiendesigns: > 50% der Teilnehmer waren aus Studien mit niedriger Qualität

  • Unstimmigkeit der Ergebnisse: I2 >  50%

  • „Indirectness“: Wir prüften, ob die Fragestellung in der systematischen Übersichtsarbeit von der verfügbaren Evidenz abwich und, in Bezug auf die Patientenpopulation im klinischen Alltag, ob bei ≥ 50% der Teilnehmer aller eingeschlossenen Studien gegeben war, dass Patienten mit klinisch relevanter körperlicher Erkrankung und/oder schwererer psychischer Erkrankung (Substanzmissbrauch oder „major depression“ in der Anamnese) ausgeschlossen wurden.

  • Ungenauigkeit: Vorliegen von nur einer Studie, Gesamtzahl der Patienten < 400 bei Vorliegen von mehr als einer Studie oder 95 %-KI der Effektgröße schloss den Wert 0 ein.

Die Evidenzqualität wurde folgendermaßen eingestuft [14]:

  • Hohe Qualität (++++): Wir sind sehr sicher, dass der wahre Behandlungseffekt nahe unserer Schätzung des Behandlungseffekts liegt.

  • Moderate Qualität (+++): Wir sind mäßig sicher bezüglich des Behandlungseffekts: Der wahre Behandlungseffekt liegt wahrscheinlich nahe unserer Schätzung des Behandlungseffekts. Es besteht aber die Möglichkeit, dass ein erheblicher Unterschied besteht.

  • Niedrige Qualität (++): Unser Vertrauen in unsere Schätzung des Behandlungseffekts ist beschränkt. Der wahre Behandlungseffekt kann sich erheblich von unserer Schätzung unterscheiden.

  • Sehr niedrige Qualität (+): Wir haben sehr geringes Vertrauen in unsere Schätzung des Behandlungseffekts. Der wahre Behandlungseffekt unterscheidet sich wahrscheinlich erheblich von unserer Schätzung.

Einschätzung des Publikationsbias

Soweit mindestens 10 Studien verfügbar waren, führten wir den Egger-Intercept- und den Begg-Rangkorrelationstest mit einem Signifikanzniveau von p < 0,05 durch. Mithilfe des Begg-Tests wird die Rangkorrelation zwischen dem standardisierten Therapieeffekt und dessen Standardfehler überprüft. Ein asymmetrischer Funnel-Plot würde zu einer solchen Korrelation führen und kann auf einen Publikationsbias hinweisen [3]. Im Egger-Test wird eine Regression der Standardnormalvariable auf die Genauigkeit durchgeführt, definiert als der Kehrwert des Standardfehlers. Der Achsenabschnitt in dieser Regression entspricht der Steigung in einer gewichteten Regression der Effektgröße auf den Standardfehler [9].

Subgruppenanalyse

A priori wurden Subgruppenanalysen festgelegt, um durch die Zusammenfassung der Studienergebnisse bezüglich der relativen Effekte von Opioiden verglichen mit Placebo Schwankungen in der Effektgröße (Heterogenität) beurteilen zu können, für Endpunkte (Schmerzintensität und Behandlungsabbrüche wegen unerwünschter Ereignisse), für verschiedene Opioidklassen (reine Opioide vs. Opioide mit zusätzlichem Wirkmechanismus, d. h. Tramadol und Tapentadol) und für die Behandlungslänge (kurz-, mittel- und langfristige Studien). Voraussetzung war, dass mindestens 2 Studien für diese Analyse vorlagen.

Sensitivitätsanalyse

Wir führten Sensitivitätsanalysen aller Opioidtypen zusammengefasst verglichen mit den zusammengefassten Placebogruppen für Endpunkte von Studien durch, in denen wir MW und/oder SD aus Abbildungen extrahierten oder SD aus p-Werten berechneten.

Software

Für die statistischen Analysen verwendeten wir Comprehensive Meta-Analysis (Biostat, Englewood, NJ, USA) und RevMan Analysis (RevMan 5.2; [29]) der Cochrane Collaboration.

Ergebnisse

Literatursuche

Nach Ausschluss von Duplikaten ergab die Literatursuche 12.601 Publikationen. Nach Sichtung wurden 12.580 Arbeiten ausgeschlossen. 21 Volltextartikel wurden auf ihre Eignung geprüft. Nach Durchsicht des Volltexts wurde eine Arbeit ausgeschlossen (Infobox 1; [4]). In die Metaanalyse wurden 20 Studien mit 33 Behandlungsarme eingeschlossen (Abb. 1; [34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53]).

Abb. 1
figure 1

Preferred-Reporting-Items-for-Systematic-Reviews-and-Meta-Analyses(PRISMA)-Flussdiagramm

Eigenschaften der Studien

Siehe Tab. 1 und Supplementary Material, Tab. 3

Tab. 1 Überblick über die randomisierten, kontrollierten Studien zu chronischem Arthroseschmerz, die in die systematische Übersicht eingeschlossen wurden (gruppiert nach Opioidtyp und in alphabetischer Reihenfolge)

Studiendesign

Es wurden 20 RCT mit 33 Behandlungsarmen und 8545 Teilnehmern eingeschlossen. Die Studiendauer betrug im Median 12 Wochen (4–24 Wochen). 13 Studien (65 %) hatten eine kurzfristige und 7 Studien (35 %) eine mittlere Behandlungsdauer. 15 Studien (75,0 %) hatten ein paralleles Design, eine (5,0 %) ein Cross-over- und 4 (20,0 %) ein EERW-Design. 15 Studien (75,0 %) wurden in Nordamerika durchgeführt, 4 (20 %) in Europa und eine (5 %) auf verschiedenen Kontinenten. 19 Studien (95 %) waren vom Hersteller eines der getesteten Medikamente gesponsert. Die Finanzierung einer Studie erfolgte mit öffentlichen Mitteln.

Teilnehmer

Die Teilnehmer hatten als Diagnose eine Hüft- und/oder Kniegelenksarthrose. 17 Studien (85 %) schlossen Patienten mit aktuellem und/oder früherem Substanzabusus und/oder gegenwärtigen schweren psychischen Erkrankungen aus. 18 Studien (90 %) schlossen Patienten mit klinisch relevanter somatischer Erkrankung aus. Die Spannweite des Durchschnittsalters in den Studien lag bei 58–64 Jahren. Die Teilnehmer waren überwiegend Kaukasier, das Geschlechterverhältnis war nahezu ausgeglichen.

Interventionen

Oxycodon und Tramadol wurden jeweils in 6 Studien getestet; Buprenorphin, Hydromorphon, Morphin und Tapentadol jeweils in 2 Studien; Codein, Fentanyl und Oxymorphon jeweils in einer Studie. Mit Ausnahme einer 4-armigen Studie, in der in einem Behandlungsarm schnell freisetzendes Morphin gegeben wurde, wurden orale Opioide immer als retardierte Formulierungen eingesetzt. Eine flexible Opioiddosierung kam in 16 Studien (80 %) zur Anwendung, in den restlichen Studien wurden feste Dosen verabreicht. In 5 Studien (25 %) wurden keine Angaben zu Bedarfsmedikationen gemacht, in 3 (15 %) waren jegliche analgetischen Bedarfsmedikationen untersagt. In 12 (60 %) waren Bedarfsmedikationen erlaubt (Paracetamol, NSAR, kurz wirksame Opioide).

Studienqualität

Das Risiko eines systematischen Fehlers konnte nicht in allen Studien befriedigend eingeschätzt werden, da die Methodik mangelhaft beschrieben war. Keine Studie hatte eine hohe Qualität. 14 Studien (70 %) hatten eine mäßige und 6 (30 %) eine geringe Studienqualität (grafische Darstellung des Risikos eines systematischen Fehlers in Abb. 2, zusammenfassende Darstellung des Risikos eines systematischen Fehlers in Abb. 3). Genauere Angaben zur Überprüfung des Risikos eines systematischen Fehlers in den einzelnen Studien finden sich im Supplementary Material, Tab. 4.

Abb. 2
figure 2

Grafische Darstellung des Risikos eines systematischen Fehlers

Abb. 3
figure 3

Zusammenfassung des Risikos eines systematischen Fehlers/der Studienqualität. Die Studienqualität war gemäß den 8 Qualitätskriterien definiert: hoch = 6–8; mäßig = 3–5; gering = 0–2

Zusammenführung der Ergebnisse

Paralleles und Cross-over-Design

Die Ergebnisse werden mit 95 %-Konfidenzintervallen (95 %-KI) angegeben.

16 Studien mit 6743 Teilnehmern wurden einer Analyse der durchschnittlichen Schmerzreduktion bei Studienende unterzogen. Opioide waren Placebo überlegen: SMD: − 0,22 (− 0,28; − 0,17); p < 0,00001; I2 = 21 %; mäßige Evidenzqualität. Gemäß den Kategorien nach Cohen war die Effektgröße klein (Supplementary Material, Abb. 1). In einer Studie [34] waren keine MW und SD angegeben; es wurde aber berichtet, dass Tapentadol und Oxycodon Placebo nicht signifikant überlegen waren.

Zwei Studien mit 2684 Teilnehmern flossen in eine Analyse der 50 %igen Schmerzreduktion bei Studienende ein. Opioide waren Placebo nicht überlegen: RD: 0,00 (− 0,07; 0,07); p = 0,96; I2 = 78 %; geringe Evidenzqualität (Supplementary Material, Abb. 2).

Drei Studien (2251 Teilnehmer) wurden in eine Analyse der berichteten starken oder sehr starken Besserung (PGIC) bei Studienende eingeschlossen. Opioide waren Placebo überlegen: RD: 0,13 (0,05; 0,21); p = 0,002; I2 = 74 %; mäßige Evidenzqualität (Supplementary Material, Abb. 3). Insgesamt 510 von 1018 Patienten (50,0 %) in der Opioidgruppe und 467 von 1233 (37,8 %) in der Placebogruppe gaben eine starke oder sehr starke Verbesserung an: NNTB: 8 (95 %-KI: 6–12). Nach den vordefinierten Kriterien wurde mit Opioiden ein relevanter Nutzen erreicht: RRI: 32 % (20–45 %).

Mit 14 Studien (5887 Teilnehmer) wurde eine Analyse der Verbesserung der körperlichen Funktionsfähigkeit bei Studienende durchgeführt. Opioide waren Placebo überlegen: SMD: − 0,22 (− 0,28; − 0,17); p < 0,00001; I2 = 0 %; mäßige Evidenzqualität (Supplementary Material, Abb. 4). Gemäß den Kategorien nach Cohen war die Effektgröße klein. In 2 Studien wurden keine MW und SD angegeben. In der einen Studie wurde berichtet, dass Tramadol Placebo überlegen war [41], in der anderen, dass Tapentadol und Oxycodon Placebo nicht überlegen waren [35].

14 Studien mit 6457 Teilnehmern flossen in eine Analyse der Abbruchraten wegen fehlender Wirksamkeit ein. Patienten unter Opioidtherapie brachen die Behandlung seltener ab als Patienten unter Placebo: RD: − 0,13 (− 0,16; − 0,10); p < 0,0001; I2 =72 %; mäßige Evidenzqualität (Supplementary Material, Abb. 5). Insgesamt brachen 386 von 3873 Patienten (10,0 %) in der Opioidgruppe und 596 von 2584 (23,1 %) in der Placebogruppe die Behandlung ab: NNTB: 8 (7–9). Nach den vordefinierten Kriterien wurde mit Opioiden ein relevanter Nutzen erreicht: RRI: 57 % (51–62 %).

15 Studien mit 6834 Teilnehmern flossen in eine Analyse der Abbruchraten wegen unerwünschter Ereignisse ein. Patienten unter Opioidtherapie brachen die Behandlung häufiger ab als Patienten unter Placebo: RD: 0,17 (0,14; 0,21); p < 0,00001; I2 = 77 %; mäßige Evidenzqualität (Supplementary Material, Abb. 6). Insgesamt brachen 1075 von 4207 Patienten (25,6 %) in der Opioidgruppe und 184 von 2627 (7,0 %) in der Placebogruppe die Behandlung wegen unerwünschter Ereignisse ab: NNTH: 5 (95 %-KI: 4–6). Nach den vordefinierten Kriterien bestand eine relevante zusätzliche Schadenswirkung durch Opioide: RRI: 237 % (192–291 %).

Mit 11 Studien (5520 Teilnehmer) wurde eine Analyse der schweren unerwünschten Ereignisse durchgeführt. Ein signifikanter Unterschied zwischen Opioiden und Placebo ergab sich nicht: RD: 0,00 (− 0,00; 0,01); p = 0,37; I2 = 2 %; mäßige Evidenzqualität (Supplementary Material, Abb. 7).

Mit 7 Studien (4694 Teilnehmer) wurde eine Analyse der Todesfälle durchgeführt. Insgesamt verstarben im Studienverlauf einer von 2752 Patienten in der Opioid- und 4 von 1942 Patienten in der Placebogruppe: RD: 0,00 (− 0,00; 0,00); p = 0.88, I2 = 0 %; mäßige Evidenzqualität (Supplementary Material, Abb. 8).

„Enriched enrollment randomized withdrawal design“

Drei Studien mit 823 Teilnehmern wurden einer Analyse der durchschnittlichen Schmerzreduktion von der Ausgangsmessung bis zum Studienende unterzogen. Opioide waren Placebo überlegen: SMD: − 0,26 (− 0,49; − 0,03); p = 0,03; I2 = 57 %; geringe Evidenzqualität. Gemäß den Kategorien nach Cohen war die Effektgröße klein (Supplementary Material, Abb. 9).

Eine Studie mit 344 Teilnehmern wurde einer Responder-Analyse der 50 %igen Schmerzreduktion bei Studienende unterzogen. Opioide waren Placebo nicht überlegen: RD: 0,09 (− 0,01; 0,20); p = 0,08; mäßige Evidenzqualität (Supplementary Material, Abb. 10).

Mit einer Studie (344 Teilnehmer) wurde eine Analyse der körperlichen Funktionsfähigkeit bei Studienende durchgeführt. Opioide waren Placebo nicht überlegen: SMD: − 0,13 (− 0,35; 0,08); p = 0,24; mäßige Evidenzqualität (Supplementary Material, Abb. 11). In einer Studie wurde berichtet, dass Tramadol Placebo überlegen war [41]; in dieser Arbeit fanden sich aber keine MW und SD.

Vier Studien mit 1178 Teilnehmern flossen in eine Analyse der Abbruchraten wegen fehlender Wirksamkeit ein. Patienten unter Opioidtherapie brachen die Behandlung seltener ab als Patienten unter Placebo: RD: − 0,13 (− 0,18; − 0,09); p < 0,0001; I2 = 7 %; mäßige Evidenzqualität (Supplementary Material, Abb. 12). Insgesamt brachen 68 von 599 Patienten (11,4 %) in der Opioidgruppe und 140 von 579 (24,2 %) in der Placebogruppe die Behandlung ab: NNTB: 8 (6–12). Nach den vordefinierten Kriterien wurde mit Opioiden ein relevanter Nutzen erreicht: RRI: 53 % (39–64 %).

Mit 3 Studien (826 Teilnehmer) wurde eine Analyse der Abbruchraten wegen unerwünschter Ereignisse durchgeführt. Ein signifikanter Unterschied zwischen Opioiden und Placebo ergab sich nicht: RD: 0,05 (− 0,00; 0,11); p = 0,06; I2 = 35 %; mäßige Evidenzqualität (Supplementary Material, Abb. 13).

Mit 2 Studien (756 Teilnehmer) wurde eine Analyse der schweren unerwünschten Ereignisse durchgeführt. Ein signifikanter Unterschied zwischen Opioiden und Placebo ergab sich nicht: RD: 0,01 (− 0,01; 0,03); p = 0,40; I2 = 0 %; mäßige Evidenzqualität (Supplementary Material, Abb. 14).

In einer Studie [43] mit 412 Teilnehmern war explizit angegeben, dass es in keiner Gruppe einen Todesfall gegeben hatte.

Subgruppen- und Sensitivitätsanalysen

In parallelen und Cross-over-Studien unterschieden sich Opioide und Opioide mit zusätzlichem Wirkmechanismus (Tapentadol und Tramadol) nicht signifikant bezüglich der durchschnittlichen Schmerzreduktion (z = 0,01; p = 0,87). Die Abbruchraten wegen unerwünschter Ereignisse waren unter Opioiden höher als unter Opioiden mit zusätzlichem Wirkmechanismus (z = 3; p = 0,003; Tab. 2).

Tab. 2 Effektgrößen verschiedener Opioidklassen hinsichtlich ausgewählter Endpunkte

Die durchschnittliche Schmerzreduktion und Abbruchrate wegen Nebenwirkungen unterschieden sich nicht signifikant in Studien mit kurzer und mittlerer Dauer (Daten auf Anfrage erhältlich).

Der Ausschluss von 2 Studien, deren MW und SD aus Abbildungen extrahiert werden mussten, aus der Analyse änderte die Signifikanz oder Größe des Effekts der Schmerzreduktion und Abbruchrate wegen unerwünschter Ereignisse nicht (Daten auf Anfrage erhältlich).

Publikationsbias

Das Kendall-τ des Begg-Rangkorrelationstests für den Endpunkt Schmerzreduktion in Studien mit parallelem und Cross-over-Design war signifikant (τ=−0,47; 2-seitiger p-Wert =0,0005). Das Egger-Intercept des Endpunkts Schmerzintensität in Studien mit parallelem und Cross-over-Design war signifikant (Intercept =−3,79; 2-seitiger p-Wert= 0,01). Beide Tests deuteten auf einen Publikationsbias hin.

Diskussion

Zusammenfassung der Hauptergebnisse

Opioide waren Placebo in der Wirksamkeit überlegen, in ihrer Verträglichkeit aber unterlegen. Hinsichtlich der Sicherheit ergab sich kein Unterschied. Die Effektgrößen von Opioiden in Bezug auf Schmerz und die körperliche Funktionsfähigkeit waren klein.

Vergleich mit anderen systematischen Übersichtsbeiträgen

Die Ergebnisse dieses systematischen Reviews (Wirksamkeit, aber auch eingeschränkte Verträglichkeit von Opioiden im Vergleich zu Placebo) stehen in Einklang mit früheren systematischen Übersichtsarbeiten der Cochrane-Gruppe zu Opioiden bei Arthroseschmerz. Cepeda et al. [6] analysierten, ungeachtet der Studiendauer, 11 RCT mit 1019 Teilnehmern, die Tramadol oder Tramadol/Paracetamol erhielten, und 920 Teilnehmern, die Placebo oder eine aktive Kontrolle erhielten. Teilnehmer unter Tramadol hatten weniger Schmerzen (− 8,5 Einheiten auf einer Skala von 0 bis 100; 95 %-KI: − 12,0; − 5,0) als Patienten unter Placebo. Einer von 8 Patienten (12,5 %), die Tramadol oder Tramadol/Paracetamol erhielten, beendeten die Einnahme wegen unerwünschter Ereignisse; die NNTH war 8 (95 %-KI: 7–12) für schwere unerwünschte Ereignisse.

Nüesch et al. [27] schlossen 10 Studien mit 2268 Teilnehmern ein. Die Studiendauer spielte dabei keine Rolle. Orales Codein wurde in 3 Studien untersucht, transdermales Fentanyl und orales Morphin in jeweils einer Arbeit, orales Oxycodon in 4 und orales Oxymorphon in 2 Studien. Insgesamt waren Opioide hinsichtlich der Schmerzlinderung (SMD: − 0,36; 95 %-KI: − 0,47; − 0,26) und Verbesserung der Funktion (SMD: − 0,33; 95 %-KI: − 0,45; − 0,21) wirksamer als die Kontrollinterventionen. Die Autoren fanden keine wesentlichen Unterschiede in den Wirkungen in Abhängigkeit vom Opioidtyp, der analgetischen Potenz (stark oder schwach), Tagesdosis oder Behandlungsdauer. Unerwünschte Ereignisse waren unter Opioiden im Vergleich zur Kontrolle häufiger. Die gepoolten RR waren 1,55 (95 %-KI: 1,41–1,70) für jegliche unerwünschten Ereignisse (4 Studien); 4,05 (95%-KI: 3,06–5,38) für Behandlungsabbrüche wegen unerwünschter Ereignisse (10 Studien) und 3,35 (95 %-KI: 0,83–13,56) für schwere unerwünschte Ereignisse (2 Studien).

Einschränkungen

Nur doppelblinde, randomisierte, placebokontrollierte Studien wurden in diese Metaanalyse eingeschlossen; das bedeutet ein hohes Niveau evidenzbasierter Medizin. Die methodische Qualität der Studien war jedoch überwiegend allenfalls mäßig. Die Verblindung der Ergebnismessung war meist unklar, was auf einen hohen Messungsbias hindeutet. Die Vollständigkeit der veröffentlichten Studiendaten war oft fraglich. Entsprechend war der Verschleißbias hoch. Auch das Risiko einer selektiven Veröffentlichung von Daten war hoch. Dies führte zu einem relevanten Publikationsbias. Fast alle Studien wurden vom Hersteller des getesteten Medikaments finanziert, was auf einen hohen Finanzierungsbias hinweist. Die externe Validität der Studienergebnisse für Patienten mit Arthrose in der routinemäßigen klinischen Versorgung ist beschränkt, da in keiner Studie Daten von Subgruppenanalysen mit hochbetagten Patienten (z. B. > 75 Jahre) publiziert wurden. Das Kendall-τ des Begg-Rangkorrelationstests für den Endpunkt Schmerzreduktion und das Egger-Intercept des Endpunkts Schmerz wiesen beide auf einen Publikationsbias hin. Negative Studienergebnisse wurden möglicherweise nicht veröffentlicht, was eine Überschätzung des tatsächlichen Therapieeffekts zur Folge haben kann.

Die Studienqualität dagegen könnten wir zu gering bewertet haben, da wir fehlende Informationen nicht von den Autoren nachforderten. In der Zusammenschau besteht in kommenden Studien Verbesserungsbedarf bezüglich der methodischen Qualität und der Berichterstattung.

Die Schlussfolgerung bezüglich der Sicherheit von Opioiden im Vergleich zu Placebo wird durch die geringe Zahl schwerer unerwünschter Ereignisse und Todesfälle eingeschränkt.

Künftige Forschungsausrichtung

Systematische Übersichten von placebokontrollierten Studien können Ärzten und Patienten bei der Auswahl von Behandlungen für chronischen Arthroseschmerz nur sehr bedingt helfen. Direktvergleiche von Opioiden mit anderen Medikamenten wurden bei chronischem Arthroseschmerz kaum durchgeführt [12, 17]. Eine Übersichtsarbeit zur Wirksamkeit verglich Cyclooxygenase(COX)-1- und COX-2-Hemmer [7], ließ aber Opioide unberücksichtigt. Eine aktuelle systematische Übersicht über Direktvergleiche von Opioid- und Nichtopioidanalgetika fand eine Evidenz von niedriger Qualität (5 Studien) dafür, dass nichtsteroidale Substanzen Tramadol in der Schmerzreduktion, Verbesserung der körperlichen Funktionsfähigkeit und Verträglichkeit überlegen waren [32]. Um eine bessere Datenbasis für zukünftige Behandlungsleitlinien zu schaffen, müssen weitere RCT durchgeführt werden, in denen vorhandene Medikamente direkt miteinander verglichen und in verschiedenen Kombinationen eingesetzt werden. Des Weiteren muss in klinischen Studien untersucht werden, ob nichtmedikamentöse Ansätze (z. B. physikalische Therapie und Lebensstilinterventionen) in der Behandlung von Patienten mit chronischem Arthroseschmerz vor, in Kombination mit oder nach medikamentösen Therapien eingesetzt werden sollten. Klassische RCT sind vielleicht nicht der beste Weg, all diese Fragen zu beantworten. Alternative Ansätze sollten entwickelt und evaluiert werden, beispielsweise systematische vergleichende Wirksamkeitsstudien an Gesundheitsregisterdaten.

Fazit für die Praxis

Die Gabe von Opioiden kann über 4–26 Wochen bei chronischem Arthroseschmerz erwogen werden. Kliniker sollten allerdings beachten, dass keine aktuelle evidenzbasierte Leitlinie Opioide als Erstlinientherapieoption empfiehlt [12, 17]. Zudem deuten jüngere Daten aus der UK General Practice Research Database darauf hin, dass das Frakturrisiko während der Einleitung der Opioidtherapie erhöht ist [19].

Die Leitlinie der European League Against Rheumatism (EULAR) empfiehlt Patienteninformation und -edukation, Änderungen des Lebenswandels, körperliche Übungen, Gewichtsreduktion, unterstützende Technologien und Anpassungen, geeignetes Schuhwerk und Arbeit als nichtmedikamentöse Behandlungen [12]. Das ACR empfiehlt ausdrücklich nichtmedikamentöse Ansätze zur Behandlung der Kniegelenksarthrose, beispielsweise Aerobic, Übungen im Wasser und/oder Widerstandstraining, zudem eine Gewichtsreduktion bei übergewichtigen Patienten. Zu den nichtmedikamentösen Methoden, die bei Kniegelenksarthrose unter Vorbehalt empfohlen werden, gehören mediale Keileinlagen bei Valgus-Kniegelenksarthrose, Subtalar-strapped-lateral-Einlagen bei Varus-Kniegelenksarthrose, nach medial ausgerichtetes Patella-Taping, manuelle Therapie, Gehhilfen, Wärmebehandlung, Tai-Chi, Selbstmanagementprogramme und psychosoziale Interventionen. Unter Einschränkungen empfohlene medikamentöse Optionen für die anfängliche Behandlung der Kniegelenksarthrose sind u. a. Paracetamol, orale und topische NSAR (in Kombination mit einem Protonenpumpenhemmer) und intraartikuläre Kortikosteroidinjektionen. Intraartikuläre Hyaluronsäureinjektionen, Duloxetin und Opioide erhielten eine eingeschränkte Empfehlung für Patienten mit unzureichendem Ansprechen auf die Ersttherapie. Opioidanalgetika bekamen eine klare Empfehlung für Patienten, die nach fehlgeschlagener medikamentöser Therapie eine Totalendoprothese ablehnen oder bei denen dieses Verfahren kontraindiziert ist. Die Empfehlungen für die Behandlung der Hüftarthrose lauteten ähnlich [17].

Offene Langzeitstudien belegen, dass eine Minderheit von Patienten mit chronischem Arthroseschmerz, die initial Opioide erhalten, ein beständiges Ansprechen (> 1 Jahr) mit akzeptablen oder ohne Nebenwirkungen zeigt [16, 31]. Eine Langzeitopioidtherapie (≥ 26 Monate) kann angeboten werden, wenn ein anhaltendes Ansprechen auf eine Kurzzeitopioidtherapie gegeben ist und/oder ein Ansprechen auf physikalische Therapiemethoden und/oder Lebensstilinterventionen ausbleibt oder wenn eine Totalendoprothese wegen schwererer somatischer Erkrankungen nicht möglich ist. Der mögliche Nutzen muss jedoch gründlich gegen potenzielle Risiken der dauerhaften Therapie, z. B. Medikamentenfehlgebrauch, erhöhte Mortalität, Frakturen und Hypogonadismus, abgewogen werden [16, 18, 19].