Pay for Performance (P4P) gehört zu den Konzepten, die mittels externer Anreize eine Qualitätsverbesserung der Gesundheitsversorgung zu erreichen versuchen. Im Gegensatz zur Veröffentlichung von Qualitätsdaten (Public Reporting) handelt es sich bei P4P um unmittelbar finanzielle und nicht um immaterielle Anreize. P4P wird vor diesem Hintergrund als ein Vergütungssystem definiert, das die Qualität der Leistungserbringer in den Mittelpunkt stellt [zusammenfassende Darstellung ([1], Nr. 725 ff, [2])]. Notwendigerweise setzt P4P das Vorhandensein valider Qualitätsindikatoren voraus, an die die Vergütung gekoppelt ist. Einige international gebräuchliche Definitionen beziehen auch Indikatoren zur Effizienz der Versorgung mit ein. In Deutschland hat sich jedoch das engere, ausschließlich auf die Qualität ausgerichtete Verständnis durchgesetzt.

P4P gewinnt seine aktuelle Bedeutung daraus, dass sich der Anreiz der Vergütung im deutschen Gesundheitswesen in erster Linie auf die Leistungsmenge (Einzelleistungen, Fallpauschalen) richtet und eine direkte finanzielle Motivation für eine hohe Leistungsqualität nicht besteht. Parallel zur Diskussion um die Einführung des Public Reporting im Qualitätsbericht nach § 137 SGB V in den Jahren 2006 und 2007 wurde daher in Deutschland die Option der qualitätsorientierten Vergütung diskutiert und zum Beispiel im ambulanten Bereich zu konkreten Ansätzen hin entwickelt [3]. Ähnlich wie in den USA [4] wurde P4P zunächst überschätzt, das heißt nach heutiger Übereinkunft stellt P4P nur eines von vielen Instrumenten zur effizienten Verwendung der Mittel und zur Qualitätsverbesserung der Versorgung dar. Eine große Rolle spielen die konkreten Umsetzungsmodalitäten und die Einbindung von P4P als eines von vielen Instrumenten zur Gestaltung integrierter Versorgungsmodelle (umfassende Darstellung [5]).

Im vorliegenden Beitrag soll insbesondere auf Studien über langfristige Effekte von P4P-Programmen und auf Erklärungsansätze für die beobachteten Entwicklungen eingegangen werden.

Der Systematische Review des Sachverständigenrates zur Begutachtung der Entwicklung im Gesundheitswesen

Der Systematische Review, den der Sachverständigenrat zur Begutachtung der Entwicklung im Gesundheitswesen (SVR) in seinem Gutachten zu P4P 2007 veröffentlichte ([1], Nr. 734 ff), umfasst 28 Studien, die jeweils Primärdaten in einem kontrollierten Design hinsichtlich festgelegter Endpunkte untersuchen (zum Beispiel Einfluss von P4P auf Impfraten oder andere Qualitätsindikatoren). 21 von 28 Studien zeigten einen positiven Effekt der P4P-Intervention; von den sieben Studien ohne positiven Effekt zeigten drei ein inhomogenes Ergebnis. Es lag kein Unterschied zwischen den Studien, die einen einfachen Endpunkt untersuchten (zum Beispiel Impfraten; Erfolg bei 15 von 19 Studien), und solchen, die komplexe Endpunkte zum Gegenstand hatten (zum Beispiel Qualität der Diabetesversorgung, Erfolg bei sechs von neun Studien), vor. Auch ergab sich zwischen Studien, die P4P als alleinige Intervention (positives Ergebnis in 14 von 18 Studien) oder als komplexe Intervention (sieben von zehn Studien) untersuchten, kein Unterschied. In der Subgruppenanalyse zeigte sich allerdings, dass zwölf von zwölf historisch kontrollierten Studien ein positives Ergebnis erbrachten gegenüber neun von 16 Studien mit einem höherwertigen Design (randomisiert, quasi-experimentell oder Case-Control). Es war also nicht gänzlich auszuschließen, dass ein durch das Studiendesign bedingter Bias vorliegt, da eine Tendenz zur Überschätzung des Effekts bei methodisch schlechteren Studien vorzuliegen scheint. Trotz dieser potenziellen Einschränkung war dieser Review Grundlage für die Empfehlung des Sachverständigenrates, mit P4P auch in Deutschland praktische Erfahrungen zu machen und diese durch begleitende Versorgungsforschung zu evaluieren.

Die Studien aus dem Review des Sachverständigenrates und die danach publizierten Erfahrungen ergeben eine gute Grundlage für die praktische Umsetzung von P4P-Programmen, die eine beträchtliche Rolle für deren Erfolgschancen spielen. Zu betrachten sind in diesem Zusammenhang in erster Linie die Frage der Adressaten (individuelle Ärzte versus Organisationen), die Auswahl der Indikatoren (Prozess- versus Ergebnisindikatoren, Routinedaten versus klinische Indikatoren) und die Spezifikation der Anreize (absolute Grenzwerte versus absolute Position in einer Rankingliste versus relative Verbesserung zum vorangegangenen Beobachtungszeitraum; vergleiche [5]).

In Deutschland wurden im Pflegeweiterentwicklungsgesetz die Grundlagen für die Umsetzung von P4P-Programmen geschaffen (§ 136 Abs. 4 SGB V). Hierauf bezieht sich auch das Projekt „Ausgezeichnete Patientenversorgung“ der Kassenärztlichen Vereinigung Bayern. Von der Kassenärztlichen Bundesvereinigung wird ein Set von Indikatoren für die ambulante Versorgung entwickelt (sogenanntes AQUIK-Programm) [6]. In den USA ist am 1.10.2008 eine Regelung in Kraft getreten, die für Medicare-Patienten bei Eintreten bestimmter Komplikationen eine Versichertenleistung für die zusätzlichen Kosten ausschließt (zum Beispiel Wundinfektionen bei bestimmten elektiven Eingriffen, siehe [7]). Der Sachverständigenrat ist in seinem Sondergutachten zur „Koordination und Integration – Gesundheitsversorgung in einer Gesellschaft des längeren Lebens“ insbesondere auf die Koordinationsprobleme zwischen den Versorgungssektoren und in den Regionen, in denen angesichts der demografischen Entwicklung und zunehmenden Multimorbidität der Bevölkerung eine Unterversorgung droht, eingegangen und hat Lösungskonzepte erarbeitet, die die Qualität und Sicherheit der Versorgung in versicherten Populationen in den Mittelpunkt stellen ([8], Nr. 931 ff).

Längerfristige Entwicklungen

Die wissenschaftlich am besten untersuchten und in Veröffentlichungen aus zahlreichen Perspektiven gewürdigten P4P-Konzepte sind das Projekt „CMS/Premier Hospital Quality Incentive Demonstration (PHQID)“ in den USA [9] und das „Quality and Outcomes Framework (QOF)“ in Großbritannien [10].

Das PHQID betrifft Krankenhäuser und ergab in einer zwei Jahre umfassenden Untersuchung von 613 Krankenhäusern, die alle an einem Public-Reporting-Programm teilnahmen, von denen aber 207 Häuser zusätzlich in ein P4P-Programm integriert waren, gemessen an zehn Einzel- und vier zusammengesetzten Indikatoren eine klare Überlegenheit der P4P-Häuser in allen zusammengesetzten Endpunkten einschließlich Herzinfarkt, Herzversagen und ambulant erworbene Pneumonie. Der Effekt war umgekehrt proportional zur Ausgangsperformance [9]. Vor dem Hintergrund dieser Studie ist die Neuauflage einer zusammenfassenden Darstellung der P4P-Programme aus dem Jahr 2004 interessant [11], die drei Jahre später Trends in der Weiterentwicklung der Programme aufzeigen konnte [12]. Fast alle „early adopters“ haben über die Jahre am Konzept P4P festgehalten, allerdings wird als Hauptproblem die adäquate Messung der Qualität angesehen. Der sekundärfachärztliche Bereich nimmt langsam an Bedeutung zu, der Umfang der finanziellen Anreize vergrößert sich, und unter den verwendeten Qualitätsindikatoren werden Prozessindikatoren zunehmend durch Outcomeindikatoren und solche, die die EDV-Ausstattung und Kosteneffektivität betreffen, abgelöst. Die befragten Programmverantwortlichen geben entweder an, dass die Spezifikationen der Indikatoren noch weiterentwickelt werden müssen und dass sich erst dann die Wirksamkeit der Programme weiter verbessern wird, oder sie setzen ihre Hoffnungen auf die Weiterentwicklung des P4P-Konzeptes in eine umfassendere Transparenz des Leistungsgeschehens. Im Übrigen sei es in jedem Fall fairer, Qualität zu vergüten als die Leistungsmenge [12].

Das Quality and Outcomes Framework (QOF) in Großbritannien bezieht sich auf die Primärversorgung (meist Gruppenpraxen), wobei die in einer Praxis eingeschriebenen Patienten in der Regel einen persönlich zuständigen Arzt haben. Die Indikatoren des „Quality and Outcomes Framework“ decken die klinische Versorgung, die Praxisorganisation und patientenbezogene Outcomes ab. Die klinischen Indikatoren beziehen sich auf zehn chronische Krankheiten, es handelt sich in erster Linie um Prozessindikatoren. Obwohl die Beteiligung freiwillig war, nahmen 99,6% der Praxen teil. Der finanzielle Umfang des P4P-Programmes lag bei über einer Mrd. Euro und machte im Durchschnitt mehr als 20% des Praxiseinkommens aus [16]. P4P wurde auch hier gemeinsam mit einem Public-Reporting-Ansatz eingesetzt. Es gibt sogenannte Exception Rules, das heißt, Patienten können ausgeschlossen werden, wenn sie nach drei schriftlichen Erinnerungen nicht in der Praxis vorstellig werden, die fragliche Intervention ablehnen, hierfür Kontraindikationen aufweisen oder die entsprechende Medikation nicht tolerieren.

In einer ersten Evaluation des Programms an einer repräsentativen Stichprobe von 42 Praxen zeigte sich zunächst eine Verbesserung der klinischen Indikatoren über die Zeit. Zwei von drei untersuchten Diagnosen verbesserten sich jedoch signifikant stärker als vorhergesagt [13]. Nicht mit Vergütungsbestandteilen verknüpfte Indikatoren der gleichen Erkrankungen verbesserten sich nicht. Die Motivation der Ärzte wurde nicht schlechter [14]. Eine Veränderung der organisatorischen Strukturen im ambulanten Bereich unter P4P ist erkennbar [14].

Die langfristigen Erfahrungen mit P4P in den USA [15] und in Großbritannien [16] können folgendermaßen zusammengefasst werden:

  • nicht alle Krankheitsentitäten reagieren gleich auf P4P-Programme,

  • eine Verbesserungstendenz ist auch ohne P4P feststellbar, es muss also der Grad der Verbesserung pro Zeiteinheit betrachtet werden,

  • es kommt zu einem „Ceiling-Effekt“,

  • die Patient-Reported-Outcomes (Zugang, Kommunikation) zeigen meist eine ansteigende Tendenz,

  • die Kontinuität der Behandlung ist ein kritischer Faktor,

  • es gibt Anzeichen für Opportunitätskosten durch Verschlechterungen anderer, nicht einem P4P-Anreiz unterworfener Bereiche,

  • nach Absetzen der finanziellen Anreize geht die Qualität der Versorgung deutlich zurück, das heißt die beobachtete Verbesserungstendenz ist also nicht nachhaltig.

Integration in andere Versorgungskonzepte

P4P ist grundsätzlich als ein lokal wirkendes Instrument anzusehen [17]. Die Kongruenz von Behandlungsverantwortung und finanziellen Anreizen ist oft nicht gegeben [18, 19]. Daher kann P4P als alleiniges Instrument nicht dauerhaft erfolgreich sein und nur im Kontext anderer, die Qualität positiv beeinflussender Versorgungskonzepte weiterentwickelt werden [20]. Das Messen von Indikatoren allein ist zu eindimensional, es müssen lokale Initiativen zum Quality Improvement gefördert werden [21]. Im Vordergrund steht die Integration von P4P in transsektorale, episodenbasierte Vergütungskonzepte [22], insbesondere in Chronic-Care [23] und Patient-Centered-Medical-Home [20]. Dabei ist die Kombination mit Public Disclosure sinnvoll [24] und wird allgemein empfohlen. Auch die Beteiligung der Patienten im Sinne des Shared-Decision-Making [25] und zusätzliche Anreize auch für Patienten (sogenannte „P4P4P“, [26]) werden diskutiert. In Deutschland sind im Rahmen mehrerer Vergütungsformen P4P-Elemente möglich, insbesondere im Rahmen der Selektivverträge bei integrierter Versorgung (§ 140a–d), der hausarztzentrierten Versorgung (§ 73b) und der besonderen ambulanten Versorgung nach § 73c SGB V [zusammenfassende Darstellung ([1], Nr. 859 ff)]. Allerdings sind bei diesen integrierten Versorgungsformen Qualitätsindikatoren, die sich nur auf die einzelnen Leistungserbringer beziehen, nicht mehr ausreichend. Auch die zunehmend verwendete transsektorale Perspektive muss zugunsten einer populationsbezogenen Perspektive (sogenannte Area-Indikatoren) aufgegeben werden. In den USA lässt sich diese Entwicklung schon erkennen, im Bereich der Managed-Care-Versorgung werden Mittel zunehmend qualitätsbezogen verteilt [20].

Negative Auswirkungen

Von einem Vergütungssystem, das finanzielle Anreize zur externen Motivation einsetzt, können auch ungünstige Effekte ausgehen [zusammenfassende Darstellung vergleiche ([1], Nr. 741 ff)], so wie sie auch bei Public-Reporting-Programmen diskutiert werden [27]. In erster Linie kommen infrage:

  • Verschlechterung der Motivation der Ärzte durch Widersprüche zwischen der externen und internen Motivation [25], bürokratische Belastung [28] und mangelnde Kongruenz von Anreizen und Behandlungsverantwortung [29],

  • Verschlechterung des Zugangs zur Versorgung durch negative Risikoselektion der Anbieter [30] oder durch einen „Tunnelblick“ auf die mit dem Anreiz verbundenen Indikatoren ohne Verbesserung oder sogar mit Verschlechterung der Gesamtversorgung [31],

  • eine Benachteiligung von Patienten, die einer vulnerablen Patientengruppe angehören [32, 33].

Im Quality and Outcomes Framework (QOF) in Großbritannien wurde das sogenannte Exception Reporting (also der Ausschluss von Patienten aus dem P4P-Programm aufgrund des hohen Risikos, dass das erwünschte Ziel zum Beispiel wegen der sozialen Lage der Patienten nicht erreicht werden kann) in Regionen mit niedrigem Einkommen und in kleineren Praxen häufiger als in anderen Regionen in Anspruch genommen [34]. Frauen aus solchen Regionen mit Diabetes mellitus zeigen einen geringeren Erfolg bei der Umsetzung von Raucherentwöhnungsprogrammen [35]. Ein jüngst erschienener systematischer Review, der sich größtenteils auf Studien zum QOF in Großbritannien bezieht, stellte allerdings eine leichte Reduktion der Ungleichheit bei der Versorgung chronischer Erkrankungen gemessen am sozioökonomischen Status, aber keine Veränderung hinsichtlich Alter, Geschlecht und ethnischer Zugehörigkeit fest [36]. In den USA konnte in einer großen Studie im Rahmen des PHQID, die auf Routinedaten basierte, bei Herzinfarkt, Pneumonie und chronischem Herzversagen ebenfalls kein negativer Effekt auf den Zugang für Minderheiten gefunden werden. Nur zwischen den Faktoren „Other Race“ und „Bypass-Operation“ ergab sich ein Effekt auf dem Niveau von p<0,10. Der Autor rät aber zur kritischen Betrachtung der weiteren Entwicklung [37].

Einzelleistungsvergütung oder Anreizwirkung

Man kann P4P als ein Vergütungssystem bezeichnen, das finanzielle Mittel von gemessenen zu nicht gemessenen Qualitätsendpunkten umsteuert [37]. Gerade die Erfahrungen in Großbritannien machen die Gefahr deutlich, dass P4P seine Wirkung letztlich als Einzelleistungsvergütung entfaltet [17]. Die finanziellen Anreize bezogen sich auf Indikatoren, über die bei den Beteiligten Übereinstimmung herrschte. Gleichzeitig war eine deutliche Verbesserung der finanziellen Ausstattung des britischen Gesundheitssystems in Aussicht gestellt worden – daher gab es in der britischen P4P-Reform „keine Verlierer“ [14]. Dies erklärt auch, warum nach Beendigung der Anreize wieder eine Verschlechterung eintritt – so als handele es sich bei der Qualität um eine nicht finanzierte Leistung [15, 16].

Diese Diskussion lässt die Frage aufkommen, welche Erwartungen Versicherungen oder Verantwortliche auf Systemebene an P4P-Programme haben und warum sie es nicht vorziehen, statt monetärerer Anreize auf der Ebene von Prozess- oder Ergebnisindikatoren als wirksam erkannte Behandlungsmethoden direkt als Einzelleistung zu vergüten [4]. Diese Frage erhält umso mehr Gewicht, als die Wechselwirkungen zwischen externen Anreizen und intrinsischer Motivation gerade bei den Gesundheitsberufen sehr komplex sind (siehe oben).

Aus einem theoretischen Blickwinkel gibt es drei Bedingungen, damit eine Vergütung nach P4P-Grundsätzen für die Beteiligten sinnvoll und daher praktisch umsetzbar ist [4]:

  1. 1.

    Die Versicherer beziehungsweise Systemverantwortlichen haben ein geringeres Verständnis über das Zustandekommen des gewünschten Gesundheitszieles als die Leistungsanbieter.

  2. 2.

    Die Leistungsanbieter verfügen über therapeutische Methoden, mit denen die erwünschten Gesundheitsziele erreicht werden können.

  3. 3.

    Für die betreffenden Erkrankungen liegen Risikoadjustierungssysteme vor, die den Ausgangszustand und den erreichbaren Gesundheitszustand der Patienten zutreffend beschreiben können.

Aus diesen Annahmen wird deutlich, dass P4P nicht funktionieren kann, wenn Versicherer und Leistungsanbieter den gleichen Wissensstand über die Patienteneigenschaften und Behandlungsoptionen haben, weil dann die direkte Finanzierung für beide Seiten über Einzelleistungen sinnvoller wäre: Der Versicherer könnte die erwünschte Leistungen direkt bezahlen, und die Leistungsanbieter bräuchten das Komorbiditätsrisiko des Patienten nicht zu übernehmen. Paradoxerweise trifft dieses Szenario sogar für den Fall zu, dass die Behandlungsmethoden zu 100% durch evidenzbasierte Medizin abgesichert sind, da in diesem Fall ein perfekter Informationsgleichstand beider Seiten besteht.

Auf der anderen Seite ist es für die Leistungsanbieter nicht sinnvoll, P4P in Betracht zu ziehen, wenn es keine Risikoadjustierungsinstrumente gibt, die sie vor der Gefahr schützen, dass ein Patient aus medizinischen Gründen nicht erfolgreich behandelt werden kann oder dass das Behandlungsergebnis von anderen (intrinsischen) Faktoren abhängt als von ihrer Behandlungsmethode. Die Alternativen bestehen für die Leistungserbringer in diesem Fall darin, die Preise zu erhöhen, um sich vor diesem unkalkulierbaren Risiko zu schützen [4], oder alternativ eine Risikoselektion zu betreiben [37], um Patienten mit einem unkalkulierbaren Risiko zu vermeiden. Dieses Szenario gilt insbesondere für kleinere Krankenhäuser oder Einzelpraxen, weil diese eher Gefahr laufen, durch eine (einzige) Auffälligkeit in ihrer gemessenen, P4P-relevanten Performance negativ beeinflusst zu werden als größere Anbieter [38]. Die Alternative für die Versicherer besteht darin, die Risikoadjustierung ihrerseits immer weiter zu verfeinern und die P4P-bedingten Vergütungsbestandteile entsprechend anzupassen. Wenn die Versicherer diesen Weg beschreiten, besteht die Gefahr, dass sie ihr Wissen so weit entwickeln, dass sie den Informationsvorsprung der Leistungsanbieter einholen und es dann sinnvoller wäre, das P4P-Programm einzustellen und den Übergang in eine sehr viel einfachere Einzelleistungsvergütung zu vollziehen [37].