Präventive Versorgung: Defizite an Effizienz und Wirksamkeit

Für die Bundesrepublik sowie auch international kommen Studien über Maßnahmen der Prävention und Gesundheitsförderung (PGF) immer wieder zu übereinstimmenden Beobachtungen von Schwachstellen dieses Versorgungsfeldes: Verlaufsdokumentation, Wirkungsnachweise, Ergebnisindikatoren und Evaluationen sind lückenhaft, diverse Evidenzkonzepte konkurrieren [1, 2, 3, 4, 5, 6, 7]. Unter diesen Voraussetzungen sind die Bestimmung der wirksamsten Interventionen, ihre Anpassung an Settings, Zielgruppen und Indikationen und die Prüfung ihrer Implementationsgüte schwierig. Diese Probleme betreffen settingbezogene, ambulante und stationäre Maßnahmen gleichermaßen [8].

Dabei sind differenzierte Kenntnisse über die Effizienz und die Effektivität der Maßnahmen dringend erforderlich. Eine bessere finanzielle Ausstattung bedeutet nämlich keineswegs einen proportionalen Zuwachs an Versorgungsqualität. In einer bundesweiten Versorgungsanalyse sekundär- und tertiärpräventiver Angebote für Kinder und Jugendliche mit Übergewicht und Adipositas fanden sich nur mäßige Korrelationen von r=0,37 zwischen der Qualität einer Maßnahme (Indikator aus 14 zentralen, evidenzgestützten Kriterien) und ihren Kosten (n=189 Angebote) [8]. Da die finanzielle Ausstattung nur etwa ein Zehntel der Versorgungsqualität aufklärt, ist eine pauschale Gießkannenfinanzierung der PGF dysfunktional. Stattdessen ist eine qualitätsorientierte Feinsteuerung erforderlich, die auf die zu erwartende Wirksamkeit und Effizienz der Angebote anspricht.

Gesundheitsbezogene Wirksamkeit — durchaus im Sinne des gesellschaftlich sensiblen Gesundheitsverständnisses der Ottawa-Charta — bildet letztlich das Hauptziel von PGF. Deshalb hat sich international der Forschungsnachweis dieser Wirksamkeit nach den Methoden evidenzbasierter Medizin als Standard für PGF durchgesetzt. Diesem Forschungsansatz folgt neben der Cochrane-Collaboration in der Medizin auch deren sozial- und erziehungswissenschaftlich ausgerichtete Schwesterorganisation, die Campbell-Collaboration [9]. Im Sinne dieses Ansatzes haben die Gesundheitsagenturen von 20 EU-Staaten unter Koordination der International Union of Health Promotion and Education (IUPHE) in Konsensprozessen das Qualitätssicherungsinstrument EQUIHP entwickelt, das Evidenzbasierung als zentrales Qualitätskriterium prüft [10]. Die Ermittlung so genannter Best-practice-Projekte, etwa in Kanada, beruht auf einem 2-stufigen Review, bei dem zunächst die Evidenz geprüft und dann die evidenzbasierten Programme einem Assessment hinsichtlich ihrer Praktikabilität unterzogen werden [11]. In der Bundesrepublik werden hingegen immer wieder grundlegende Vorbehalte gegen die Übertragbarkeit evidenzbasierter Medizin auf PGF diskutiert, deren Berechtigung im Folgenden geprüft werden soll.

Evidenzsicherung: Grundgedanke, Stufen und Leistungen

Evidenzbasierung meint die abwägende, systematische Nutzung der verfügbaren Erfahrung mit der Bearbeitung bestimmter Aufgabenstellungen. Das professionelle Wissen ergibt, gesammelt und gesichtet, Belege (Evidenz) für die Wirksamkeit verschiedener Interventionen und zeigt Wege zur Versorgungsoptimierung [12, 13]. Kernpunkt dieses Forschungsansatzes ist die kritische Zusammenstellung der Forschungsdaten. Diese Verdichtung leisten Reviews, also die systematische Zusammenstellung der Befunde anhand der von der Cochrane-Collaboration international standardisierten Methodenprotokolle zur metaanalytischen Zusammenfassung empirischer Daten verschiedener Herkunft und Designs. Ein Review entsteht in 5 Schritten [12]: Fragestellung, vollständige Literaturrecherche aller Forschungsarbeiten, kritische Sichtung der Veröffentlichungen nach methodischer Güte, Zusammenfassung der verlässlichen Ergebnisse und Gesamtinterpretation der Befunde.

Die Aussagekraft der erhaltenen Evidenz wird nach internationaler Konvention in mehrere Stufen eingeteilt, die sich an den Studiendesigns zur Absicherung von Wirksamkeit orientieren [12, 13]. Die höchste Evidenzklasse erbringt die sichersten Ergebnisse, die niedrigste hat den geringsten Beweiswert für die Wirksamkeit der Problembearbeitungen. Die Evidenzhierarchie beschreibt also die Verlässlichkeit des einbezogenen Wissens. Dafür gibt es verschiedene Klassifikationen und zusätzlich Klassifikationen für die Verpflichtungskraft der abgeleiteten Empfehlungen — etwa zur Erstellung von Behandlungsleitlinien [12, 14].

Richtet sich die Auswahl, Gestaltung und Umsetzung von Maßnahmen nicht nach der Evidenz, so drohen der Versorgung langfristig gravierende Defizite [15]:

  1. 1.

    Verschwendung: Die Finanzierung der fragwürdigen entzieht den wirkungsvollen Maßnahmen Gelder, Marktchancen und Zugänge zu den Zielgruppen.

  2. 2.

    Desorientierung: Wirkungsvolle und schwache Interventionen werden bei der Gesundheitsberichterstattung und Evaluation in einen Topf geworfen, der mögliche Erfolg von PGF insgesamt unterschätzt. Dies hemmt die Nachhaltigkeit und Professionalisierung der Versorgung.

  3. 3.

    Demotivation: PGF mit geringer Wirksamkeit enttäuscht Mitwirkende und Stakeholder. Zivilgesellschaftliches Engagement freiwilliger Multiplikatoren wird in defizitären Maßnahmen verschlissen. Zielgruppen können demotiviert werden, zumal wenn es sich um sozial Benachteiligte mit ihrer sozialisationsbedingt niedrigeren Selbstwirksamkeitserwartung handelt.

Aus diesen Gründen ist es wichtig, Möglichkeiten einer vergleichenden Wirkungsabschätzung von PGF zu prüfen und weiterzuentwickeln.

Leistungen der Evidenzbasierung für PGF

Ein wichtiger Ausgangspunkt der Evidenzsicherung für PGF waren die Erfolge von Reihenuntersuchungen zur Früherkennung und Informationsmaßnahmen, aktuell etwa zur Melanomverhütung durch Sonnenschutz in Australien [16]. Mittlerweile sind Wirkungsnachweise für komplexe Programme auch über mehrere Jahre verfügbar. So richtet sich die schulische Übergewichtsprävention der Kieler Adipositas-Präventionsstudie (KOPS) an gesunde Kinder, aber auch an Risikogruppen. Das Programm besteht aus Ernährungsunterricht, Verhaltens- und Verhältnisprävention zur aktiveren Pausengestaltung, Weiterbildung für Lehrkräfte und längerfristigen Elternschulungen sowie Familienberatungen und Sportangeboten für adipöse Kinder. Es bewirkt neben erhöhtem Ernährungswissen auch Verhaltensänderungen, geringere Inzidenzraten und BMI-Gewinne für übergewichtige Kinder in 1- bis 4-Jahreskatamnesen [17].

Die Prävention von Herz-Kreislauf-Erkrankungen demonstriert Beiträge der Evidenzbasierung zum Wirksamkeitserweis von PGF, aber auch zu einer Erfolg versprechenden präventiven Umorientierung der Gesundheitspolitik [18]; die hochwertigen Interventionsstudien belegen positive Wirkungen u. a. für:

  • Screenings von Risikogruppen- und -faktoren,

  • Verhaltensmodifikation durch Trainings zu verschiedenen Verhaltensfeldern (Ernährung, Bewegung, Stress, Rauchen, soziale Unterstützung),

  • individuelle aufsuchende Beratung,

  • professionelle Fortbildungen von Multiplikatoren im Gesundheitswesen,

  • massenmediale Aufklärungskampagnen,

  • breite Kampagnen eines Bündnisses vieler gesellschaftlicher Akteure, die mit einer Vielzahl von Ansätzen der Verhaltensprävention (Schulungen, Gesundheitsunterricht, Inserate) und der Verhältnisprävention (z. B. Deklarierungsgesetze für Lebensmittel) eine Modifikation mehrdimensionaler Risikoverhaltensmuster (Bewegung, Ernährung, Stress) erreichten.

Diese Erfolge waren international von erheblichem gesundheitspolitischen Einfluss. Seitdem wurde verschiedentlich belegt, dass der Gesundheitszustand der Zielgruppen verbessert werden und PGF dabei mittelfristig kostendeckend arbeiten und sogar gesundheitsökonomische Einsparungen erreichen kann [19, 20]. Ökonomische Schätzungen sind zwar schwierig, weil Annahmen über die hypothetische Inanspruchnahme ohne Intervention sowie über die langfristige Entwicklung von Versorgungs- und Pflegekosten eingehen (ebd.). Doch sind bei geeigneter PGF für viele Indikationen erhebliche Mortalitätsminderungen zu erwarten. In der Bundesrepublik könnten Ernährungsumstellungen z. B. eine Minderung der Krebsneuerkrankungen um 20–30% bewirken, also 100.000 Fälle p.a. [21].

Ähnlich dicht ist die Forschungslage für die Tabakprävention: Eine Kombination verhaltens- und verhältnispräventiver Maßnahmen konnte in den USA den Konsum in 20 Jahren um ungefähr ein Drittel zurückdrängen, dank konsequenter Umsetzung in Kalifornien sogar um die Hälfte. Parallel sank die damit verbundene altersstandardisierte Mortalität durch Herzkrankheiten [22]. Personalkommunikative und kurative Angebote müssen mit motivierenden makrosozialen Kampagnen und Verhältnisprävention kombiniert werden, sonst bleiben Inanspruchnahme und Compliance gering. So nutzen z. B. von den Rauchern in der Bundesrepublik nur etwa 2% Entwöhnungskurse und knapp 10% Substitutionsbehandlungen [23].

Neben den Wirkungsnachweisen hinsichtlich bestimmter Gesundheitsprobleme oder Indikationen können Typen von Interventionen, also ganze präventive Arbeitsfelder, auf Evidenz gestützt werden. So belegt eine Metaanalyse betrieblicher Gesundheitsförderung, dass diese Programme u. a. erkrankungsbedingte Kosten um ein Drittel zu verringern und gesundheitsbezogene Risikoverhalten von Beschäftigen zu mindern vermögen [24]. Zur Raucherentwöhnungsmotivation scheinen sie erfolgreicher zu sein als gemeindebezogene Interventionsansätze. Die returns on investment liegen zwischen 1:2,3 für Einsparungen an krankheitsbezogenen Kosten und 1:10,1 für rückläufige krankheitsbedingte Arbeitsunfähigkeit. Um diese Wirksamkeit zu erreichen, müssen sie allerdings übergreifend angelegt sein, d. h. verhaltens- und verhältnispräventive Ansätze verbinden und möglichst auch das soziale Umfeld der Beschäftigten und des Betriebs einbeziehen. Solche Evidenzlagen sind heute für alle wichtigen Arbeitsfelder der Primärprävention und Gesundheitsförderung erhältlich [25, 26]. Sie bilden starke gesundheitspolitische Argumente für einen Ausbau von PGF.

Weiter ist es möglich, aussichtsreiche von weniger wirkungsvollen Strategien zu unterscheiden. So sollten Ansätze zur Prävention bei Kindern und Jugendlichen das familiäre Umfeld ansprechen oder einbeziehen, etwa um Alkoholmissbrauch vorzubeugen [27] oder Übergewicht zu reduzieren [28]. Interaktive (partizipative) schulische Drogenprävention ist erheblich wirkungsvoller als instruktiv-direktiver Gesundheitsunterricht; Erstere erbringt Prävalenzrückgänge um 21%, Letzterer nur um 4% [29]. Doch können auf lange Sicht auch kognitiv angelegte Interventionen emotionale und familiäre Auswirkungen haben; gut angelegte Vorschulprogramme erleichtern den Einstieg in das Bildungswesen mit deutlichen Effektstärken (d=0,52) und erhöhen dadurch das emotionale Wohlbefinden der Kinder und ihrer Familien nachhaltig bis in die Sekundarstufe II (d=0,30–0,33) [30]. Durch die Kombination vieler Einzelstudien ist es in gut erforschten Gebieten auf diese Weise langfristig möglich, Merkmale erfolgreicher Interventionen einzugrenzen und die PGF gezielt weiterzuentwickeln. Ein Beispiel bietet der Integrationsversuch zur Sekundär- und Tertiärprävention von Übergewicht bei Kindern und Jugendlichen [28, 31].

Auf diese Weise gelingt schließlich die Bestimmung evidenzbasierter Techniken oder Teilschritte von Interventionen. So sind für Diabetikerschulungen nicht nur Verhaltensverträge und Computerprogramme zur Instruktion und Nachbetreuung zu empfehlen, sondern auch eine Reihe didaktischer Regeln — klare Zielvorgaben, Motivationsarbeit, kurze Lernsequenzen, kontinuierliche Würdigung, Beschränkung auf alltagsrelevantes Wissen, Aufgreifen persönlicher Erfahrungen, Medienwechsel, Visualisierung, häufige Wiederholungen u. a. m. [32].

Ein Nutzen solcher Ansatzvergleiche besteht darin, unrealistische Erwartungen an einzelne Maßnahmen zu dämpfen und nicht einzelnen Akteuren (wie z. B. Schule, Lehrkräfte) zuzumuten, gesamtgesellschaftliche Trends abzufangen. So weist die Evidenz auf teilweise eher geringe, instabile Wirkungen vieler personalkommunikativer Tabak-, Alkohol- und Drogenpräventionsmaßnahmen für Kinder und Jugendliche hin, obgleich langfristig die Wirksamkeit übergreifender multimodaler Programme belegt ist [27, 33, 34].

Anhand von Evidenz ist es zudem möglich, Schwachstellen der präventiven Versorgung einzugrenzen. So lässt sich das „graue Mammographie-Screening“ in der Bundesrepublik kritisch betrachten, obwohl die Metaanalysen generell Reduktionen von Brustkrebsmortalitätsraten um 21% zeigen: Infolge von Unzulänglichkeiten der Zielgruppenansprache werden hohe Anteile der unter 50-jährigen Frauen entgegen europäischer Empfehlungslage untersucht und bei mehr als 100.000 Frauen p.a. operative Biopsien durchgeführt, die die Verdachtsdiagnose nicht bestätigen und vermeidbar wären [35]. Schwachstellenanalysen sind auch für die Primärprävention möglich: In einer zentralen Metaanalyse zeigten 20 von 56 Studien keinerlei Alkoholprävention bei Jugendlichen; familienstärkende Programme hatten hingegen mehrjährig stabile Number-needed-to-treat-Effekte: Um ein Kind in der 4-jährigen Nacherhebungszeit vom Einstieg in den Alkoholkonsum abzuhalten, mussten 9 (gefährdete) Kindern in diese Programme einbezogen werden [27]. Schulische oder informationsvermittelnde PGF bedarf folglich der Ergänzung um familiäre Interventionen.

Evidenzbasierung hat also für die Konzeption und Umsetzung von Programmen, für die Entwicklung von Interventionsstrategien und für die Ausrichtung der Gesundheitspolitik auch im Feld der PGF wertvolle Orientierung zu bieten. Ein Verzicht auf diese wichtige Informationsquelle ist beim aktuellen Forschungsstand nicht zu rechtfertigen. Gleichwohl hat die Methodik ihren Ursprung in der kurativen Behandlung diagnostizierter, festgelegter Einzelerkrankungen. Deshalb wird im Folgenden geprüft, welche Anforderungen an die Evidenzsicherung sich für komplexe Settings und Interventionen der PGF aus der Diskussion ergeben.

Die Debatte um evidenzbasierte Prävention und Gesundheitsförderung

Entwicklungserfordernisse der Evidenzbasierung werden seit einigen Jahren diskutiert [6, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53]. Zentrale Argumente betreffen die nachfolgend dargestellten Bereiche.

Datengrundlagen

Graue Literatur

Manche Einrichtungen und Praktikernetzwerke bevorzugen Arbeits- oder Internetpapiere zur schnellen, unkomplizierten Kommunikation. Aufstellungen über den Umfang solcher Veröffentlichungen fehlen. Die bestehenden Möglichkeiten zur Recherche Grauer Literatur bringen oft wenig zusätzlichen Ertrag, weil diese Veröffentlichungsweise gerade von Akteuren bevorzugt wird, die wenig Zeit für Datenpflege haben. So haben solche Datenbasen bislang nicht erkennbar zur Erweiterung der wissenschaftlichen Literatur beigetragen. Insgesamt hat sich die Zugänglichkeit von PGF-Studien seit 2000 mit neuen, teilweise PGF-spezifischen Datenbanken ohnehin wesentlich verbessert [54].

Veröffentlichungslage

Viele Daten sind schwer zugänglich [52]. Negativbefunde werden seltener veröffentlicht, da sie mehrdeutig sind. Sie können z. B. auf Messfehler infolge unzulänglicher Instrumente, ungünstiger Messpunkte oder zahlreicher Confounder zurückgeführt werden [55]. Somit könnte die Veröffentlichungslage die Wirksamkeit von Maßnahmen überschätzen, weil nicht signifikante Ergebnisse wegfallen. Dieser Einseitigkeitsverdacht widerspricht allerdings dem internationalen Forschungsstand, der auch wirkungslose Ansätze kenntlich gemacht hat, z. B. Spielarten des Gesundheitsunterrichts zur Suchtprävention [27].

Fragestellung

Reviews sind sehr arbeitsaufwändig. Wissenschaftlich-theoretisch bedeutsame Themen werden indes möglicherweise eher finanziert und durchgeführt, weil dafür Motivation und Ressourcen zu gewinnen sind. Die Auswahl der Themen kann damit auch von den Interessenslagen großer Einrichtungen mit eigener Infrastruktur für Forschung und Studienlogistik abhängen (z. B. für die Gewährleistung von Katamnesen). Dies kann nur durch die Entwicklung einer Präventionskultur unter Einbeziehung kompetenter und kritischer Akteure für praxisnahe Fragestellungen ausgeglichen werden. Solche Ansätze werden z. B. von den Forschungsinstituten der Krankenkassen verfolgt [24, 56].

Implizite Standardisierung

Die praktische Programmtreue einmal evaluierter Interventionen bleibt häufig ungeklärt. So bieten Angebote für Kinder und Jugendliche mit Übergewicht überwiegend selbst gebastelte Mischvarianten eingeführter Programme [8]. Komplexe systemische Interventionen wie betriebliche Gesundheitsförderung sind per se schwer standardisierbar [57]. Eine metaanalytische Effektintegration unterstellt hingegen gleiche Implementationsgüte, also standardisierte Interventionen (oder den zufälligen Ausgleich verschiedener Defizite). Um dies zu kontrollieren, muss evidenzbasierte PGF genaue Interventionsbeschreibungen einholen.

Validität und Verallgemeinerungsfähigkeit

Sub- und interkulturelle Unterschiedlichkeit

Indikationen und Interventionen für somatische Ereignisse und Verläufe sind qua körperlicher Beschaffenheit der Menschen interkulturell verallgemeinerungsfähig. Dieser Analogschluss ist für das komplexe Gesundheitsverhalten nicht unbedingt gültig. Selbst innerhalb einer Gesellschaft ist mit psychosozialen und kulturellen Differenzen zu rechnen. So sind z. B. Essstörungen geschlechtsspezifisch mit Körperbildern verbunden. Für Cannabiskonsum gibt es kulturspezifische Normenhintergründe; die meisten Risikoverhaltensmuster — so Alkoholkonsum oder Übergewicht — weisen deutliche soziale Gradienten auf. Dieser Einwand stellt eine Reihe zusätzlicher Anforderungen an die Passung von Intervention und Zielgruppe, fordert aber von der Evidenzbasierung nur eine methodische Wachheit für kulturelle Unterschiede, die viele Arbeiten ohnehin berücksichtigen [27]. So zeigt eine Metaanalyse von 34 amerikanischen Frühförderungsprogrammen eine nachhaltig besonders hohe Wirksamkeit bei afroamerikanischen Kindern und ihren Familien [30]. Allein die Evidenz liefert differenzierte Faktengrundlagen zur Klärung solcher Vorbehalte.

Eigenständiger Ansatz

Jede Präventionsstrategie hat einen eigenen Evidenzbegriff [53]. Gesundheitsförderung zielt auf Partizipation, Empowerment, Vernetzung und Capacity-Building. Für diesen Ansatz gibt es (noch) wenig Studien, Messinstrumente und längerfristige Beobachtungen [58]. Da die übergreifenden Zielsetzungen nicht in der Abwehr eingegrenzter pathologischer Endzustände bestehen, können empirische Designs kaum alle möglichen Effekte und Nebenwirkungen erfassen [12]. Hier wird ein wesentlicher Unterschied zwischen indikationsspezifischer Prävention und generischer Gesundheitsförderung gesehen [57]. Diese — konzeptuell triftige — Unterscheidung verfehlt allerdings empirisch die Versorgungswirklichkeit: Der Teilnehmerkreis an Präventionsmaßnahmen setzt sich — neben den eigentlichen Adressaten — in erheblichem Umfang aus Personen mit bereits starken Beschwerden sowie aus Personen ohne irgendwelche Risikofaktoren zusammen [59]. Zudem zeigt der Umstand, dass aussagefähige Reviews vorliegen, wie komplexe Gesundheitsförderungen anhand empirischer Evidenz beurteilt und weiterentwickelt werden können. So empfiehlt ein Review für die Weltbank, Wohnquartiere sozial Benachteiligter mit lifestylebezogenen Kampagnen zu verschonen, die dort generell Ablehnung wecken, und stattdessen mit Interventionen anzusetzen, die spürbare Verbesserungen im Alltag bringen — etwa bei der Lebensmittelqualität [60].

Forschungsstrategie

Komplexität

Settings stellen hochspezifische, differenzierte Konstellationen von Akteuren, organisationsrechtlichen und -kulturellen Handlungsnormen, individuellen Sozialisationsgeschichten und Bezügen zu anderen Lebenswelten dar. Es ist deshalb schwierig, alle intervenierenden Implementationsfaktoren und Confounder zu erfassen, schon gar in prospektiven Langzeitstudien [5, 52, 57]; deren Kosten steigen mit der Zahl einbezogener Dimensionen. Dank der Entwicklung von Kurzskalen, der Zerlegung multifaktorieller Probleme in Teilstudien und der EDV-basierten Zugänglichkeit geeigneter Methoden (Strukturgleichungsmodelle, Mehrebenenanalysen) scheint dieses Problem aber in absehbarer Zeit schrittweise lösbar.

Status qualitativer Methoden

Prinzipiell lässt die Cochrane-Collaboration qualitative Studien zu, solange nicht breitere Stichproben und Befunde höherer Erhebungs- und Auswertungsobjektivität vorliegen. Sie veranschlagt ihre Verlässlichkeit jedoch als niedrig, da diese Studien kleine Stichproben und methodische Unwägbarkeiten mit sich bringen. Allerdings wird auch in der kurativen Medizin nur ein geringer Anteil von Entscheidungen auf der höchsten Evidenzstufe begründet [57]. Die Campbell-Collaboration sieht die Funktionen qualitativer Forschung in der Optimierung von Interventionen, der Begründung geeigneter Outcome-Masse und dem Verständnis vielschichtiger Evaluationsergebnisse; sie folgt damit dem klassischen Phasenmodell der Triangulation [61]. Qualitative Studien sollen darin mit gleicher Sorgfalt wie andere beschrieben werden, um ihre verallgemeinerungsfähigen Ergebnisse herauszufiltern [9].

Bedeutung praktischer Expertise

Einschätzungen von Praktikern nehmen in der Evidenzhierarchie den untersten Rang ein. Denn Expertenkonsense sind für eine einseitige Auswahl der Beteiligten anfällig [62]. Die Perspektiven von Patienten, Trägern, Management und Behandlungspersonal (und dabei die unterschiedlichen Disziplinen) divergieren, besonders die von Behandlern und Versorgungsträgern [63]. Möglicherweise verbergen sich hinter Expertengruppen also Akteure, die interessegeleitete Kriterien als Standards zu etablieren trachten [62]. Aus diesen Gründen sind Expertenmeinungen irrtumsanfällig und werden zu Recht gegen den empirischen Horizont abgewogen.

Interventions- und Settingbeschreibungen

In Evaluationen fehlen häufig die für die Erstellung von Kausalmodellen und Ansatzvergleichen erforderlichen Angaben über Ausgangsbedingungen, Verlaufsfaktoren sowie komplexe Outcome-Messungen auf mehreren Ebenen und unter verschiedenen Praxisbedingungen [52, 64]. Dadurch werden hochwertige und defizitäre Interventionen zusammengewürfelt und die möglichen Effekte unterschätzt. So fand eine ältere Metaanalyse für betriebliche Gesundheitsförderung mittlere Effektstärken von d=0,41 auf individuelle Stressreaktionen und noch geringere Zusammenhänge auf der Ebene der Gesamtorganisation. Das lag u. a. daran, dass die Studien Arbeitsbelastungen und verhältnispräventive Elemente unzulänglich erfassten [65]. Auch hier zeichnet sich eine technische Aufgabe der Durchführung ab, keine fatale Schwäche der Evidenzsicherung als Forschungs- und Versorgungsstrategie.

Praktische Nützlichkeit

Entscheidungsnahe Orientierung

Die Versorgung soll auf sicherer empirischer Basis gestaltet werden, doch ist diese vielfach unterentwickelt. Zur Überbrückung wurde international der Ansatz der Health Impact Assessments (HIA) entwickelt, die Evidenz rasch und praxisnah in Entscheidungsprozesse einspeisen [66, 67]. Sie werden auch für PGF empfohlen [68].

Gesundheitsökonomie

Die Perspektive öffentlicher Gesundheitsförderung fragt auch, welche trade-offs zwischen teuren, intensiven und punktuellen Interventionen einerseits und vergleichsweise kostengünstigen, breit angelegten, niedrig dosierten Interventionen andererseits bestehen. Nicht alles, was auf Individualebene stärker wirkt, bringt auf Populationsebene bessere Gesundheitseffekte [69]. Auch diese Frage lässt sich nur empirisch durch bessere Evidenz klären; zu angemessenen Maßnahmenbeschreibungen gehören daher vergleichsfähige Daten zu Gesundheitsökonomie und Effizienz [53].

Internationaler Diskussionsstand

Die angeführten Beispiele zur Effektabschätzung der PGF zeigen, dass die für Cochrane-Reviews entwickelte Evidenzhierarchie methodisch begründet und praktisch informativ ist. Das bedeutet zunehmende Erkenntnis- und Handlungssicherheit für die Versorgungsgestaltung. Evidenzbasierung hat sich daher im angloamerikanischen Raum und in großen Teilen Europas als Standard auch für PGF durchgesetzt. Sie bildet eine Grundlage der Qualitätsprüfung von Programmen etwa im niederländischen PREFFI [3], im europäischen Qualitätssicherungsinstrument EQUHIP [10] oder im kanadischen IDM [11]. Das EU-Projekt „Getting Evidence Into Practice“ hat ein Review-Methodenprotokoll für PGF entwickelt [70]. Es soll praktischem Wissen einen autonomen Evidenzstatus sichern, klärt allerdings weder dessen Merkmale noch die Besonderheit des Verfahrens gegenüber Cochrane-Reviews. Damit lässt sich der Diskussionsstand wie folgt zusammenfassen:

  • Evidenzbasierte PGF wird international als Standard betrachtet. Sie ist kein völlig neuer Ansatz; dafür müssen einige Anforderungen bewältigt werden, die die evidenzbasierte Medizin zwar prinzipiell auch leisten müsste, die aber in der PGF besonders differenziert beachtet werden müssen, damit eine evidenzbasierte Versorgungsoptimierung gelingt. Dies gilt besonders für eine präzise Erfassung komplexer Settings und Interventionen.

  • Evidenzgestützte Erkenntnis ist ein schrittweiser Optimierungsprozess. Neues Wissen wird in verbesserte Theorien integriert, diese werden in neuen Studiendesigns und Reviews abgesichert oder abgewandelt usw. [5].

  • Evidenz ist eine pragmatische Handlungsgrundlage: Sie markiert das jeweils bestmögliche Wissen. Anforderungen an die empirische Beweisführung hängen also von Aufgabenstellung und verfügbaren Daten ab [5].

Die Diskussion und die Entwicklungsansätze eigener Review-Protokolle für PGF machen deutlich, dass eine naive Beschränkung auf methodische Praktiken der evidenzbasierten Medizin die Entwicklungspotenziale von PGF verkennen würde. Abschließend werden daher auf der Grundlage des Diskussionsstands spezifische Erfordernisse an die Evidenzbasierung von PGF präzisiert.

Anforderungen an die Wirkungsabschätzung von Prävention und Gesundheitsförderung

Auf Wirksamkeit abzielende PGF kann somit von der Methodenstrenge der Evidenzhierarchie profitieren. Während diese jedoch den Alphafehler minimiert, also irrige Verallgemeinerungen unzulänglicher Befunde unterbindet, lässt sie einen Betafehler unbekannten Umfangs zu, sie legt also extrem hohe Maßstäbe an neue Erkenntnisse an. Zur Weiterentwicklung der Methodik werden zumeist verschärfte Gütekriterien für die einbezogene Forschungsliteratur vorgeschlagen. Eine methodenkritische Übersicht nennt 121 solcher Filterlisten, die sich in der konkreten Umsetzung jedoch an die eingeführten Evidenzklassen halten [71]. Schärfere Methodenkriterien könnten den Alphafehler weiter senken, den Betafehler hingegen erhöhen. Hohe Betafehler durch falsch-negative Befunde ziehen aber die Entwicklung feldadäquater Versorgungsansätze in Mitleidenschaft. PGF bedarf daher nicht schärferer Kriterien für den Wert einzelner Forschungsarbeiten, sondern tragfähiger Evidenz für ihre Übertragbarkeit auf verschiedene komplexe Feldbedingungen. Die wichtigsten aktuellen Vorschläge werden im Folgenden dargestellt. Zusammen ergeben sie eine für die Anforderungen von PGF modifizierte und differenzierte Anordnung der Evidenzklassen (s. Übersicht 1).

Übersicht 1: Vorschlag für Evidenzklassen in PGF, höchstwertige Studiendesigns oben (angelehnt an Konventionen der Cochrane- und der Campbell-Collaboration [12, 76])

PGF-I

Metaanalyse möglichst hochwertiger Studien, differenziert nach Designs

PGF-II

Randomisierte, kontrollierte experimentelle Studie (RCT), falls nach Sachlage möglich:

Studie mit zufälliger Zuordnung der Teilnehmer zu verschiedenen Interventionsbedingungen (Behandlung oder Kontrollgruppe, z. B. durch Placebo oder Standardversorgung), um systematische Verzerrungen durch zufällig-gleichmäßige Verteilung auszuschließen. Verdeckte Zuordnung („doppelblind“ für durchführendes Behandlungspersonal und Teilnehmer), mit Vorher-Nachher-Messungen zur Beobachtung der Unterschiede zwischen Interventions- und Kontrollgruppe. Detaillierte Feld- und Interventionsbeschreibung

PGF-III

Unrandomisierte experimentelle Studie:

Gesteuerte oder bekannte Zuweisung der Teilnehmer zu den Untersuchungsgruppen (z. B. alternierende Zuordnung oder Zuordnung nach Datum); sonst wie RCT

Beobachtungsstudie mit Kontrollgruppe:

Vergleichsstudie, bei der die Einteilung von Interventions- und Vergleichsgruppe durch die Bedingungen im Feld vorgegeben ist; sonst wie RCT. Unterformen:

1. Kohortenstudie: Nachbeobachtung bei Teilnehmern, die eine Behandlung erhalten haben, im Vergleich zu anderen Mitgliedern einer Ausgangsgruppe

2. Fall-Kontroll-Studie: Vergleich der Interventionsraten bei Personen, die ein Zielergebnis erreicht haben, mit Personen, die es nicht erreichen

3. Verankerung: Vergleich der Interventionsgruppe mit Normdaten repräsentativer Referenzgruppen (Bevölkerung, Personen in bestimmten Settings oder Risikogruppen)

Beobachtungsstudie ohne Kontrollgruppe, mit Mehrpunktmessung (mindestens 4), mehrdimensionaler Erhebung (z. B. Verhalten, Einstellungen, Gesundheitsstatus, Struktur, 3 Teilzielgruppen), Verknüpfung aller Messungen in Verlaufsbeschreibung

Beobachtungsstudie ohne Kontrollgruppe, mit multimethodischer Triangulation (qualitative Begleitforschung zu Verlaufs- und Wirkungsfaktoren)

PGF-IV

RCT, Experimentalstudie oder Beobachtungsstudie mit Kontrollgruppe, bei denen präzise Settings- und Interventionsbeschreibung fehlen oder unklar sind:

Die Übertragbarkeit der Befunde (Feldbedingungen, Interventionsmerkmale) ist ungesichert!

Beobachtungsstudie ohne Kontrollgruppe:

- Querschnittstudie: Sie untersucht Zusammenhänge zwischen Interventionsergebnissen u. a. Faktoren und Parametern zu bestimmten Zeitpunkten in einer ganzen Untersuchungsgruppe

- Prä-Post-Studie: Verlaufsbeobachtung (Messungen vor und nach Intervention in kumulierten Einzelfällen)

- Fallserien: Verlaufsbeschreibung von Fällen, die eine Intervention erhielten

Strukturierter Expertenkonsens:

- Transparente, systematische Pluralität aller Perspektiven bei der Expertenauswahl unter Offenlegung von Interessenlagen

- Transparenz in Verfahren und Konsensregeln; Protokoll und systematische Bearbeitung oder Veröffentlichung von Kontroversen und Mindermeinungen und deren Gründen

- Bezug und Verknüpfung der Konsensergebnisse mit empirischem Kenntnisstand

PGF-V

Fallberichte, Expertenmeinungen, unstrukturierter Expertenkonsens

Interventionsprofile dokumentieren

Die Kenntnis der Interventionsmerkmale erhöht den praktischen und theoretischen Wert von Evidenzprüfungen, aber auch von Überblicksarbeiten generell [5, 72] und ist als Kontrolle der Programmtreue für verlässliche Evaluationen erforderlich [48]. Einen evidenzgestützten Ansatz zur Integration des bestmöglichen empirischen Wissens in eine versorgungsnahe, praktikable PGF stellt das Qualitätsentwicklungssystem QS-Prävention von BZgA/UKE bereit [73]. Es betrachtet aussichtsreiche Interventionen als gelungene Integration dreier Kontextbedingungen: Setting, Zielgruppen und Gesundheitsziele. Interventionen müssen für die jeweilige Aufgabe auf das Gesamtgefüge dieser Parameter ausgerichtet werden. Dazu erfasst QS-Prävention eine differenzierte Liste der laut Evidenz wichtigsten Interventionsmerkmale u. a.:

  • Konzept: Grundansatz und Teilelemente (Module, Schritte), deren Begründung, Abfolge und Verknüpfung. Daraus lassen sich grobe Indikatoren für Interventionsdichte, -dosis, -vielfalt und -breite ableiten.

  • Planung: Verknüpfung der Maßnahme mit anderen Aktivitäten und Angeboten, kontextuelle Anpassung des gewählten Ansatzes.

  • Vermittlung und Inhalte: Streuung der Information bei den Zielgruppen, Arbeitsmethoden, Materialien und Medien, Elemente zur Sicherung von Nachhaltigkeit.

  • Gestaltung und Inhalte der Einzelelemente: Didaktik, Materialien, Verbreitung, Zeitablauf.

  • Verlaufsgestaltung: Lenkung und Ablauf, Bearbeitung eventuell auftretender Schwierigkeiten, Prüfung externer Leistungen im Rahmen der Aktivität.

  • Evaluation/Erfolgskontrolle: Integrales Gesamtbild der Effektivität, Daten zu Inanspruchnahme und Akzeptanz, qualitative Beobachtungen der Wirkungen.

Zudem sind nach QS-Prävention folgende Rahmenbedingungen (Confounder) zu kontrollieren, die die Ergebnisse der Intervention beeinflussen:

  • Einrichtungsgröße, Personalstamm, Qualifikationen,

  • anvisierte Reichweite, Laufzeit und finanzielle Ausstattung der Maßnahmen (als Indikator für gesundheitsökonomische Aufwendungen),

  • Vernetzung, Kooperationspartner und -formen.

Diese Listen können als Vorlage für die Dokumentation von Interventionen als Grundlage ökologisch valider Evidenzbasierung genutzt werden. QS-Prävention liefert zudem direkte Kennziffern für den Ausprägungsgrad (Qualität) dieser u. a. Interventionsmerkmale. Das System kann direkt zur Versorgungsforschung eingesetzt werden [8]. Die Maßnahmenbeschreibungen in Evaluationsstudien umfassen ähnliche, aber weniger und ungenauere Kategorien (z. B. [74]).

Differenzierte Kontextbeschreibungen veröffentlichen

Beschränkt sich die Literatur meist auf Stichworte zur Zielgruppe, so sind zur empirischen Wirksamkeitsabschätzung präventiver Aktivitäten detaillierte Feldbeschreibungen erforderlich, d. h. präzise, vergleichsfähige Charakteristika der Interventionsbedingungen [5, 52, 72]. QS-Prävention liefert als evidenzgestützte zentrale Merkmale [73]:

  • Organisation oder Handlungsfeld, rechtliche und soziokulturelle Bedingungen präventiver Arbeit,

  • Umfang und Soziodemographie der anvisierten und der tatsächlich erreichten Multiplikatoren und Zielgruppen sowie deren soziokulturelle Hintergründe und Erwartungen an die präventive Maßnahme.

Die jeweils erforderlichen Beschreibungsmerkmale ergeben sich spezifisch für Settings, Zielgruppen und Gesundheitsziele. Wenn z. B. die Organisationskultur einer Schule bearbeitet werden soll, um schulische Gesundheitsförderung dauerhaft zu implementieren, so sollen die für die Maßnahme bedeutsamen Merkmale der Organisationskultur beschrieben werden.

Beobachtungsstudien als Forschungsstrategie ausbauen

RCT-Designs sind für PGF häufig nicht sinnvoll, weil Kontrollgruppen nicht zu finden oder sachgemäß zu definieren sind oder allein die Vornahme von Messungen einen erheblichen Eingriff darstellt [5, 52, 57, 75]. Die Evidenzbasierung für Aufgaben der PGF fordert deshalb die Ausdifferenzierung und Aufwertung von Beobachtungsstudien. Für Problemstellungen, bei denen RCT-Designs aus zwingenden Gründen sachlich unangemessen sind, sollten Erstere nicht als methodisches Ideal dienen, sondern von vornherein feldnahe Evaluationsverfahren angestrebt werden. In Reviews für PGF muss anhand von Problemstellung, Einzelbefunden und Feldbedingungen abgewogen und begründet werden, ob bei konfligierenden Datenlagen punktuelle RCT-Studien mit womöglich geringen Fallzahlen die plausiblen, vielfältiger verankerten Befunde anderer Studien tatsächlich entwerten oder vielmehr die Kontextualisierungsbedürftigkeit von RCT-Ergebnissen erhellen. Bei einer gegenstandsangemessenen Handhabung der Evidenzstufen sollten aber — so schlägt die Methodengruppe der Campbell-Collaboration vor — die Arbeiten verschiedener Ansätze gesondert analysiert und verglichen werden, um ggf. Verzerrungen bestimmter Methoden aufzudecken [76].

Beobachtungsstudien bedürfen zur Stärkung ihrer Aussagekraft hoher ökologischer Validität und kontextueller Übertragbarkeit. Hierfür empfiehlt sich eine Strategie, die dem — etwa in der Psychologie bewährten — Multi-Trait-Multi-Method-Ansatz (MMTM) folgt [77]. Elemente sind:

  • Mehrpunktmessungen zur Modellierung von Verläufen,

  • mehrdimensionale Instrumente mit dichter konvergenter und diskriminanter Validierung (z. B. zugleich direkte und indirekte Veränderungsmessung),

  • multimethodische Datenerhebungen und Triangulation der Befunde.

Für eine Wirkungsbeobachtung schulischer Gesundheitsförderung würde das z. B. bedeuten: Halbjahresmessungen über 3 Jahre, Auswertung mit Mehrebenenmodellen (für Schularten, Länder, Einzelschulen, Klassenstufen), Fragebögen für mehrere Zielebenen (Strukturen, Prozesse), mit mehreren in der Auswertung verknüpften Zieldimensionen (z. B. Risiko- und Gesundheitsverhalten, Gesundheitswissen und -einstellungen, Körperbild, Kohärenzgefühl, erlebte Selbstwirksamkeit, soziale Unterstützung, Organisationsklima, -kultur und -strukturen, Partizipation usf.), in mehreren Zielgruppen (Kollegium, Eltern, Schüler, Träger, Quartier) sowie Triangulation der Wirkungsbeobachtungen mit qualitativer Prozessbegleitung und retrospektiven Interviews (über Erfolgsfaktoren, Hürden und Wirksamkeit der Einzelinterventionen und ihres Zusammenwirkens).

Plurale Wissensformen zweckmäßig integrieren

Zum MMTM-Ansatz leisten qualitative Studien wichtige Beiträge: Ihre Stärke liegt im Bereich von Was-, Wie- und Warum-Fragen. Sie bilden die Grundlage für die Entwicklung von Programmtheorien, die dann in RCT-Studien oder Reviews durch Wirkungsvergleiche geprüft werden können [78]. Wo verschiedene Befunde einander ergänzen, bestätigen oder widersprechen, kann dies für die Methoden- und Theorieentwicklung fruchtbar gemacht werden [61]. Werden dafür qualitative Methoden integriert, sind deren Gütekriterien ebenfalls zu prüfen [79]. Doch der Wert einer Studie hängt nicht allein vom Design ab, sondern auch von ihrem Beitrag zur Theorie über Wirkungs- und Verlaufsfaktoren eines Ansatzes. Die Evidenzprüfung als Teil einer kontinuierlichen Verbesserung von Kausalmodellen, Messverfahren und empirischen Kenntnissen ist daher nicht notwendig das Ende einer Theorie, sondern ein Impuls zur Weiterentwicklung von PGF.

Expertenwissen in transparenten Verfahren einbinden

Expertenwissen nimmt eine niedrige Evidenzstufe ein, da Größe, Zusammensetzung, Mehrheits- und Arbeitsregeln von Delphi-Verfahren für Einseitigkeit und Partialinteressen anfällig sein können [62]. Um dies auszuschließen und Praxiserfahrungen einen stärkeren Platz im Zusammenspiel einander ergänzender Datenquellen zu sichern, sind mehrere Anforderungen zu erfüllen:

  • Transparenz in Verfahren und Kriterien, besonders bei der Auswahl von Arbeitsgruppenmitgliedern,

  • Pluralität repräsentierter Perspektiven: konkurrierende theoretische und methodische Ansätze, Stakeholder-Interessen (z. B. Träger, Anbieter), Forschung, Steuerung und Durchführung, verschiedene Disziplinen und Teildisziplinen,

  • Offenlegung möglicher Interessenskonflikte oder Interessensbindungen. Diese sind nicht prinzipiell verwerflich, sondern zur Herstellung pluraler Perspektiven wichtig,

  • Kombination konkurrierender Wissensbestände im Vorgehen, bei Konflikten und deren Protokollierung (statt Verdeckung durch erzwungene Konvergenz oder Vermeidung durch einseitige Expertenauswahl).

Die Evidenzstufe Expertenwissen verdient also eine Differenzierung: Systematische, transparente Konsensrunden, in die gezielt alle Stakeholder einbezogen wurden (auch die mit schwer vereinbaren Perspektiven!) und in denen die Interessen der Teilnehmenden offen gelegt und auch ihre Konflikte veröffentlicht wurden, können einen höheren Evidenzgrad beanspruchen als andere Expertenkreise.

Fazit: Evidenz erschließen — Wirksamkeit sichern

Je mehr empirisch gesicherte Erfahrung in die Konzeption und Durchführung von PGF einfließt, desto bessere Ergebnisse sind zu erwarten. Evidenzbasierung stellt somit einen kontinuierlichen Lern- und Verbesserungsprozess der Theorie- und Programmentwicklung dar, dient der Professionalisierung des Feldes und verbessert die Stellung der PGF im Gesundheitswesen. Auf lange Sicht ist ein Aufholen der deutschen Präventionskultur und ihre Annäherung an die internationalen Standards evidenzbasierter PGF zu erwarten und zu unterstützen. Methodologische Weiterentwicklungen der Evidenzbasierung für die besonderen Erfordernisse der PGF (komplexe Settings, komplexe Interventionen) sind dabei sinnvoll. Die vorgeschlagenen Modifikationen erhöhen den Erkenntniswert der Wirkungssicherung und erweitern die Gestaltungsspielräume für eine effektivere und effizientere Versorgung.