Hintergrund

Aufgabe der Gesundheitsberichterstattung (GBE) des Bundes ist – neben der Unterstützung von gesundheitspolitischen und -planerischen Entscheidungsfindungen – vor allem die Information der (Fach-)Öffentlichkeit über die Gesundheit und das Gesundheitsverhalten der in Deutschland lebenden Bevölkerung [1]. Das Themenspektrum der GBE ist vielfältig. Sie veröffentlicht regelmäßig in verschiedenen Berichtsformaten Informationen zur Häufigkeit von Krankheiten [2], von klinischen Symptomkomplexen [3] und von Risikofaktoren [4] in der Bevölkerung. Im Rahmen der GBE wird zudem die Inanspruchnahme von Vorsorgeuntersuchungen, präventiven Maßnahmen und anderen Gesundheitsleistungen [5, 6, 7] untersucht sowie das subjektive Wohlbefinden [8] der Bevölkerung analysiert. Des Weiteren berichtet die GBE über das Mortalitätsgeschehen in Deutschland [9] und über die Kosten im Gesundheitswesen [10].

Die Informationen für die GBE werden aus verschiedenen Datenquellen generiert. Zum einen werden Daten aus Gesundheitssurveys wie dem „Kinder- und Jugendgesundheitssurvey“ (KiGGS) oder der „Studie zur Gesundheit Erwachsener in Deutschland“ (DEGS) genutzt. Ebenso dienen verschiedenste epidemiologische Studien als Datengrundlage für die GBE. Beispielhaft sei hier der „Epidemiologische Suchtsurvey“ oder die „KORA-Studie (Kooperative Gesundheitsforschung in der Region Augsburg)“ erwähnt. Neben den genannten Primärdatenquellen greift die GBE auf Daten zurück, i) deren Erhebung gesetzlich festgeschrieben ist (z. B. Mikrozensus, Krankenhausstatistik), ii) die international angelegten Datenbanken entstammen [Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD), Weltgesundheitsorganisation (WHO)] oder iii) die in Registern meldepflichtiger und anderer Erkrankungen gesammelt werden (z. B. epidemiologische Krebsregister).

Routinedaten der Gesetzlichen Krankenversicherung (GKV) wurden bis jetzt selten für die Zwecke der GBE genutzt. Zwar veröffentlichen einzelne Krankenkassen zunehmend Informationen über den Gesundheitszustand und das Gesundheitsverhalten ihrer Versicherten [11, 12], jedoch lassen sich diese Ergebnisse aufgrund von Besonderheiten in der Versichertenstruktur der einzelnen Krankenkassen nicht ohne Weiteres auf die gesamte Bevölkerung übertragen [13].

Im vorliegenden Beitrag soll daher diskutiert werden, inwieweit GKV-Routinedaten den Nutzungsanforderungen der GBE des Bundes entsprechen, wie die Daten für die GBE genutzt werden können und was die Vor- und Nachteile dieser Daten insgesamt und im Vergleich zu anderen Datenquellen sind. An Relevanz gewinnt diese Fragestellung durch das 2012 in Kraft getretene GKV-Versorgungsstrukturgesetz, das vorsieht, dass die Stamm- und Leistungsdaten aller in der GKV Versicherten einer breiteren Fachöffentlichkeit zugänglich gemacht werden sollen.

Ausgangspunkt für diese Betrachtungen war ein vom Robert Koch-Institut (RKI) gefördertes Projekt, in dem GKV-Routinedaten für die GBE am Beispiel Herzinsuffizienz genutzt wurden. Beispiele werden jedoch auch aus anderen Themenfeldern herangezogen, die eigene oder die Untersuchungen anderer betreffen.

Nutzungsmöglichkeiten von GKV-Routinedaten in der GBE des Bundes

GKV-Routinedaten, die forschenden Einrichtungen für wissenschaftliche Zwecke zur Verfügung gestellt werden können, enthalten eine Fülle an gesundheitsbezogenen Informationen. Neben soziodemografischen Angaben zu den Versicherten beinhalten die Daten Informationen zur ambulanten und stationären Versorgung, zu ambulanten Arzneimittelverordnungen, zu Heil- und Hilfsmitteln, Informationen zur Pflege sowie zu den Kosten medizinischer Leistungen (Tab. 1). Alle genannten Informationen liegen personenbezogen vor und können im Rahmen wissenschaftlicher Projekte über ein studienspezifisches Versichertenpseudonym verknüpft werden.

Tab. 1 Struktur und Inhalt von Routinedaten der Gesetzlichen Krankenversicherung

Im Folgenden soll auf einzelne für die GBE relevante Themenfelder eingegangen werden. Dabei wird erläutert, inwiefern diese Themen auf Basis von GKV-Routinedaten untersucht werden können und worin hier die Vor- und Nachteile der Daten liegen.

Häufigkeit von Krankheiten und Risikofaktoren

Daten zur Häufigkeit von Krankheiten und Risikofaktoren stehen im Zentrum der Berichte zur gesundheitlichen Lage und zu Determinanten der Gesundheit. Zur Beschreibung der Morbiditätslast können in GKV-Routinedaten ambulante Diagnosen, stationäre Hauptentlassungsdiagnosen, die den Behandlungsgrund widerspiegeln, sowie stationäre Aufnahme- und Nebendiagnosen in Form von Diagnosen der International Classification of Diseases and Related Health Problems, 10th Revision, German Modification (ICD-10 GM) herangezogen werden. Auf Basis dieser Diagnosen lassen sich aufgrund des vorhandenen Populationsbezuges Inzidenz- und Prävalenzermittlungen vornehmen. Da die Daten zudem auf der Individualebene vorliegen, lassen sich die entsprechenden Schätzer in diversen Stratifizierungen, z. B. nach Alter, Geschlecht, Region (die Angabe zum Wohnort des Versicherten liegt je nach Fragestellung und dem jeweiligen Datenschutzkonzept ggf. nur vergröbert vor), Bildung oder Beruf, berechnen [14, 15, 16]. Weiter ermöglicht dies eine Alters- und/oder Geschlechtsstandardisierung. Da GKV-Routinedaten jedoch keine Informationen über Symptome oder Erkrankungen enthalten, bei denen die Patientinnen und Patienten das Gesundheitssystem nicht in Anspruch nehmen, wird oftmals von „administrativen“ Inzidenzen und Prävalenzen gesprochen. Beispielsweise wurde in einer auf GKV-Routinedaten basierenden Studie zur Prävalenz des Vorhofflimmerns (VHF) bei 7,7 % der 65- bis 74-jährigen Männer ein VHF festgestellt [17]. In der populationsbasierten Gutenberg-Gesundheitsstudie wurde hingegen in der entsprechenden Gruppe eine Prävalenz des VHF von 10,6 % beobachtet [18]. Die höhere Prävalenz in der Primärstudie ist zum einen auf die erstmalige Diagnose eines bisher unbekannten asymptomatisch verlaufenden VHF mittels Elektrokardiogramm (EKG) zurückzuführen. Andererseits kann in der auf GKV-Routinedaten basierenden Studie eine Nichtinanspruchnahme des Gesundheitssystems dazu führen, dass bereits diagnostizierte Fälle keine fortlaufenden Diagnosen erhalten.

Die Untersuchung der Häufigkeit von Erkrankungen oder gesundheitlichen Beschwerden, die keine kontinuierliche Behandlung oder diese nur in einigen Fällen erfordern, sind in Routinedaten nicht vollständig darstellbar. Problematisch sind auch Erkrankungen, die nur schwer über ICD-Diagnosen operationalisierbar sind [19]. Des Weiteren können Änderungen im Kodierverhalten der Ärzte, z. B. bedingt durch die Einführung neuer Vergütungssysteme wie den Diagnosis Related Groups (DRG) oder neuer Kodierrichtlinien, einen Einfluss auf die Höhe des entsprechenden Schätzers haben (Tab. 2, [20]). In der vom RKI geförderten Studie zur Epidemiologie und Versorgung der Herzinsuffizienz konnte beispielsweise ein deutlicher Prävalenzanstieg von 2004 auf 2005 beobachtet werden, der wahrscheinlich weniger einen tatsächlichen Anstieg der Krankheitslast darstellt, sondern vielmehr Ausdruck einer häufigeren und genaueren Kodierung im Zuge der DRG-Einführung ist [21]. In der Studie konnte gezeigt werden, dass die Anzahl kodierter Hauptentlassungs- und Nebendiagnosen zur Herzinsuffizienz von 2004 auf 2005 um ca. 32 bzw. 29 % anstieg. Von 2005 auf 2006 waren diesbezüglich vergleichsweise geringe Anstiege zu beobachten (um ca. 5 bzw. 6 %).

Tab. 2 Vor- und Nachteile der Nutzung von Routinedaten der Gesetzlichen Krankenversicherung für die Gesundheitsberichterstattung des Bundes

Da für das Projekt individuelle Diagnose- und Leistungsdaten aus dem ambulanten Bereich erst ab dem Kalenderjahr 2004 vorlagen, standen für die Analyse nur 3 Jahre zur Verfügung. Das Vorliegen längerer Zeiträume würde die Unterscheidung von tatsächlichen und artifiziellen Trends deutlich erleichtern.

Dem Nachteil, dass eine Nichtinanspruchnahme des Gesundheitssystems bzw. Nichtdokumentation von bestimmten Erkrankungen (z. B. Adipositas) zu Missklassifikationen führen kann, steht der Vorteil gegenüber, dass Abrechnungsdaten auch eine Aussage über Bevölkerungsgruppen ermöglichen, die in Primärdatenstudien häufig nur schwer rekrutiert werden können, wie z. B. Hochaltrige, Multimorbide oder Personen mit Migrationshintergrund.

Umgekehrt bietet die Befragung und klinische oder apparative Untersuchung von Probandinnen und Probanden in Primärstudien den Vorteil, dass auch bis dato unbekannte und asymptomatisch verlaufende Erkrankungen durch Screening (z. B. per EKG) erkannt werden können (Tab. 3). Außerdem können anhand von Feldstudien auch Aussagen über Erkrankungen getroffen werden, die keinen Kontakt mit dem Gesundheitssystem nötig machen. Zudem können Indikatoren der subjektiven Gesundheit und lebensstilbedingter Risikofaktoren [Tabakkonsum, Alkoholkonsum, Drogenkonsum, körperliche (In-)Aktivität, Ernährungsverhalten] besser beschrieben werden, da die entsprechenden Informationen direkt erfragt werden. In GKV-Daten fehlen diese entweder gänzlich, oder sie können nur über Surrogatparameter abgebildet werden [22]. Außerdem ist zu berücksichtigen, dass in epidemiologischen Studien und Gesundheitssurveys ein Teil der ausgewählten Personen die Teilnahme verweigert, was mit einem Selektions-Bias einhergehen kann, wenn durch selektives Teilnahmeverhalten vermehrt gesündere, sozial besser gestellte und an dem Forschungsgegenstand interessiertere Personen bzw. Personen, die allgemein einen gesünderen Lebensstil aufweisen, an der Studie teilnehmen. Non-Responder-Analysen entsprechender Studien wiesen z. B. auf Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern hinsichtlich des Bildungsstands hin [23, 24]. Weiter gilt es zu beachten, dass Krankheit oftmals als Grund für eine Nichtteilnahme an einer Studie genannt wird [24, 25]. Dies kann zu einer Unterschätzung der Krankheitslast und einer Überschätzung der Häufigkeit protektiver gesundheitsbezogener Verhaltensweisen führen [26].

Tab. 3 Vor- und Nachteile weiterer Datenquellen für die Gesundheitsberichterstattung des Bundes

Inanspruchnahme von Gesundheitsleistungen

Einen weiteren Schwerpunkt der GBE stellen Berichte über die Gesundheitsversorgung bzw. das Gesundheitssystem dar. Diesbezüglich ermöglichen GKV-Routinedaten sowohl die Betrachtung des Versorgungsgeschehens einzelner Sektoren als auch der intersektoralen Versorgung [19]. Anhand der Daten zum ambulanten Leistungsgeschehen lässt sich ermitteln, wie häufig die Versicherten Ärztinnen und Ärzte aufsuchen, wobei hier auch zwischen einzelnen Facharztgruppen unterschieden werden kann. Die Ermittlung der genauen Zahl an Arztkontakten kann jedoch eingeschränkt sein, da in der ambulanten vertragsärztlichen Versorgung seit 2008 mehrere Arztkontakte innerhalb eines Behandlungsfalls pauschalisiert abgerechnet werden [27]. Weiter kann untersucht werden, welche Leistungen dabei in Anspruch genommen werden, sofern diese anhand des Einheitlichen Bewertungsmaßstabes (EBM) abrechenbar sind. Beispielsweise lässt sich so die Häufigkeit der Inanspruchnahme von allgemeinen Vorsorgeuntersuchungen, Arthroskopien, Herzkatheteruntersuchungen oder Magnetresonanztomographien analysieren. In der vom RKI geförderten Studie wurde bezüglich der ambulanten Versorgung unter anderem die (Fach-)Arztkontakthäufigkeit von Patientinnen und Patienten mit Herzinsuffizienz bestimmt und mit der (Fach-)Arztkontakthäufigkeit von Patientinnen und Patienten ohne Herzinsuffizienz verglichen. Weiter wurden diesbezüglich Geschlechts-, Alters- und regionale Unterschiede untersucht [21].

Bezogen auf den stationären Sektor können ebenfalls Aussagen zur Art und Häufigkeit der Leistungen gemacht werden [19]. Es lässt sich unter anderem untersuchen, wie häufig eine Patientin bzw. ein Patient hospitalisiert wird, ob die Hospitalisierung voll- oder teilstationär erfolgt und wie lange die Patientin bzw. der Patient im Krankenhaus verweilt. Zudem können in der Regel alle durchgeführten Operationen und sonstigen diagnostischen und therapeutischen Maßnahmen ermittelt werden, die anhand des Operationen- und Prozedurenschlüssels kodierfähig sind. Darüber hinaus liegen Informationen darüber vor, ob der Aufenthalt regulär beendet wurde oder die Entlassung z. B. in eine Reha- oder Pflegeeinrichtung bzw. in ein Hospiz erfolgte. Das längsschnittliche und personenbezogene Vorliegen der Daten erlaubt es zudem, die Häufigkeit von Rehospitalisierungen zu untersuchen.

Bezüglich der Arzneimittelversorgung kann anhand der anatomisch-therapeutisch-chemischen Klassifikation ermittelt werden, welcher Wirkstoff verordnet und in der Apotheke eingelöst wurde. Beide Informationen liegen datumsbezogen in GKV-Routinedaten vor. Weiter ist den Daten die Pharmazentralnummer des verschriebenen Präparates zu entnehmen. Über eine Arzneimittelreferenzdatenbank ermöglicht die Pharmazentralnummer unter anderem die Bestimmung der Packungsgröße und der definierten Tagesdosen pro Packung. Anhand von GKV-Routinedaten lassen sich demnach Häufigkeiten bestimmter Verordnungen, sog. Verordnungsprävalenzen, bis auf Wirkstoffebene bestimmen. In der Studie zur Prüfung der Eignung von GKV-Routinedaten für die GBE wurde zudem untersucht, ob Leitlinienempfehlungen zur medikamentösen Therapie der Herzinsuffizienz dahingehend eingehalten werden, dass dem Schweregrad der Erkrankung entsprechende Arzneimittel verschrieben werden. Diesbezüglich konnte beispielsweise festgestellt werden, dass Medikamente, die erst in einem fortgeschrittenen Stadium der Herzinsuffizienz indiziert sind, zum Teil bereits neu erkrankten Patientinnen und Patienten verschrieben werden [28].

Einen weiteren Bereich stellen die Heil- und Hilfsmittel dar, deren Inanspruchnahme ebenfalls anhand von GKV-Routinedaten untersucht werden kann [29].

Zu beachten ist jedoch, dass die Inanspruchnahme von Leistungen, die von der Erstattung der GKV ausgenommen sind bzw. die nicht als separate Leistung kodiert werden, anhand von GKV-Routinedaten nicht analysierbar ist (Tab. 2). Hierzu zählen z. B. Arzneimittel, die nicht rezeptpflichtig sind (sog. Over-the-counter-Präparate) oder auch individuelle Gesundheitsleistungen (IGeL) [30]. Diesbezüglich bieten insbesondere epidemiologische Studien und Surveys den Vorteil, dass auch Leistungen, die von den einzelnen Patientinnen und Patienten selbst zu tragen sind, durch eine entsprechende Befragung der Teilnehmenden erfasst werden können [31]. Hierbei ist jedoch zu beachten, dass Teilnehmerinnen und Teilnehmer länger zurückliegende Arztbesuche oder sonstige Leistungsinanspruchnahmen vergessen oder verwechseln können (Recall-Bias). Weiter kann ein Selektions-Bias, wie bereits oben beschrieben, zu einer Unterschätzung des Inanspruchnahmeverhaltens in primären epidemiologischen Studien führen [19, 26].

Die Krankenhausstatistik und die fallpauschalenbezogene Krankenhausstatistik (DRG-Statistik) stellen ebenfalls wichtige Datenquellen zur Beschreibung des stationären Inanspruchnahmeverhaltens dar. Vor allem die Regelmäßigkeit der Datenerhebung sowie der Vollerhebungscharakter ermöglichen es, z. B. Trends in der Verweildauer oder bei den am häufigsten durchgeführten Operationen gut abzubilden. Da in beiden Datenquellen jedoch ein Fall- und kein Personenbezug vorliegt, d. h. eine Person mehrmals in die Statistik eingehen kann, können in den einzelnen Alters-, Geschlechts- oder regionalen Stratifizierungen keine Inzidenzen und Prävalenzen von Erkrankungen ermittelt werden. In GKV-Routinedaten ist dies wiederum möglich, da anhand einer im Zeitverlauf unveränderten pseudonymisierten Personenidentifikationsnummer längsschnittliche Verläufe dargestellt werden können. Somit kann personenbezogen zwischen erstmaliger und erneuter Diagnose unterschieden werden [19]. Darüber hinaus können die genannten Statistiken, wie GKV-Routinedaten auch, durch Veränderungen der Rahmenbedingungen beeinflusst sein.

Sterblichkeit

Ein weiteres für die GBE relevantes Themengebiet ist die Beschreibung des Mortalitätsgeschehens. Hierzu werden in der Regel Informationen aus der gesetzlich verankerten Todesursachenstatistik oder den epidemiologischen Krebsregistern herangezogen [9]. In GKV-Routinedaten können Sterbefälle anhand des Austrittsgrunds aus der Versicherung oder des Entlassungsgrunds aus dem Krankenhaus ermittelt werden. Demnach besteht die Möglichkeit, diverse, für die GBE des Bundes relevante Kennzahlen der Mortalität, wie z. B. die allgemeine Mortalitätsrate oder die Krankenhaussterblichkeit, zu ermitteln und diese nach Alter, Geschlecht oder Region darzustellen bzw. zu standardisieren. In unserer Studie zur Epidemiologie und Versorgung der Herzinsuffizienz konnte unter anderem die schlechte Prognose von Patientinnen und Patienten mit Herzinsuffizienz bestätigt werden, da innerhalb von 30 bzw. 60 Tagen nach herzinsuffizienzbedingter Hospitalisierung 13,5 bzw. 17,9 % der Patientinnen und Patienten verstarben [21].

Da in GKV-Routinedaten die Angabe zur Todesursache, wie sie in der Todesursachenstatistik enthalten ist, fehlt, ist eine Bestimmung ursachenspezifischer Mortalitätsraten nicht oder nur eingeschränkt möglich. Grundsätzlich kann die Fülle an gesundheitsbezogenen Informationen jedoch für eine indirekte algorithmengestützte Bestimmung der Todesursache genutzt werden. Andere Autoren zeigten, wie dies im Fall der Brustkrebssterblichkeit in kanadischen Routinedaten funktionieren kann [32]. Wir haben einen ähnlichen algorithmengestützten Ansatz zur Ermittlung der Sterblichkeit aufgrund von Brustkrebs auch an deutschen GKV-Daten erprobt [33], dieser bedarf allerdings noch einer weiteren Validierung.

Anforderungen an Datenquellen für die Nutzung in der Gesundheitsberichterstattung

Potenzielle Datengrundlagen müssen eine Reihe von Anforderungen erfüllen, um für die GBE des Bundes genutzt werden zu können. Sie müssen repräsentativ, gültig und verlässlich sein und kontinuierlich erhoben werden; außerdem sollten sie bevölkerungsgruppenspezifische Aussagen ermöglichen, damit ggf. besondere Problemlagen aufgezeigt und Zielgruppen für politische Interventionen bestimmt werden können [1]. Inwiefern diese Bedingungen durch GKV-Routinedaten erfüllt werden, soll in den folgenden Abschnitten diskutiert werden.

Repräsentativität

Zwischen den einzelnen Krankenkassen bestehen historisch gewachsene Unterschiede in der Versichertenstruktur. Auswertungen des Bertelsmann Gesundheitsmonitors von Hoffmann und Icks [13] ergaben beispielsweise, dass in der BARMER sowie der DAK häufiger Frauen, in der TK sowie der IKK hingegen eher Männer versichert sind. Weiter waren Unterschiede hinsichtlich der regionalen Verteilung der Versicherten zwischen den Krankenkassen erkennbar. Vor allem taten sich in dieser Analyse jedoch Unterschiede bei der Verteilung des höchsten Schulabschlusses auf. So hatten 48,0 % der TK-Versicherten ein Abitur bzw. die Fachhochschulreife, bei AOK-Versicherten waren es hingegen nur 18,6 %. Des Weiteren ist zu beachten, dass einzelne Krankenkassen teilweise spezifische Versorgungsangebote vorhalten [Disease Management Programme (DMP), Verträge zur integrierten Versorgung, Selektivverträge], die die Kodierung von Leistungen bzw. Inanspruchnahme sowie die Häufigkeit kodierter Diagnosen beeinflussen können (z. B. durch die häufigere Erfassung von Komplikationen einer Erkrankung in DMPs). Ein Rückschluss auf das Inanspruchnahmeverhalten oder die Häufigkeit bestimmter Erkrankungen in der Gesamtbevölkerung anhand von Daten einzelner Krankenkassen ist demnach schwierig. Geschlechts- und Altersunterschiede können zwar durch entsprechende Standardisierungen berücksichtigt werden, eine Berücksichtigung von Einflussfaktoren wie dem sozioökonomischen Status, der mit einer Reihe von Erkrankungen und Risikofaktoren assoziiert ist [34, 35], ist hingegen schwierig, da relevante Informationen in den Kassendaten nur unvollständig vorliegen. Bei der Nutzung von GKV-Routinedaten sollten demnach möglichst Daten mehrerer Krankenkassen eingebunden werden, um i) eine hohe regionale Abdeckung zu erreichen und ii) auch hinsichtlich soziodemografischer Charakteristika sowie versorgungsangebotsrelevanter Merkmale ggf. nach einer entsprechenden Gewichtung der Krankenkassentypen eine ausgeglichene Datengrundlage zu schaffen, die Aussagen mit einer höheren externen Validität ermöglicht. Die Einschränkung der Repräsentativität von GKV-Routinedaten durch das Fehlen von Informationen zu Mitgliedern der privaten Krankenversicherung ist für viele Fragestellungen gering, da der Anteil privat Versicherter in Deutschland bezogen auf die Gesamtbevölkerung nur ca. 11 % beträgt.

Gültigkeit und Verlässlichkeit

GKV-Routinedaten werden nicht primär für den Forschungszweck erhoben, sondern stellen Prozess- bzw. Abrechnungsdaten dar. Vor der Nutzung der Daten für die GBE sollten relevante Informationen in den Kassendaten im Idealfall auf ihre Gültigkeit und Verlässlichkeit hin überprüft werden. Eine detaillierte Beschreibung der einzelnen Methoden zur Validierung von GKV-Routinedaten ist in einer Publikation von Hoffmann und Kollegen [36] zu finden. Zum einen können die Daten einer internen Validierung unterzogen werden, indem z. B. geprüft wird, ob bestimmte Variablen im Zeitverlauf einem üblicherweise bestehenden Trend unterliegen (z. B. Krankenhauseinweisungen). Weiter kann eine interne Diagnosevalidierung vorgenommen werden. Hierbei wird untersucht, ob Personen mit Diagnosen zu einer bestimmten Erkrankung zusätzlich weitere spezifische Informationen für diese Erkrankung aufweisen (z. B. Verschreibung von Heparin bei Diagnose einer Thrombose). Andernfalls könnte es sich um eine historische Diagnose handeln, die nicht als solche kodiert ist. Zum anderen kann im Rahmen von Validierungsstudien ein indirekter (Abgleich von Raten mit amtlichen Statistiken oder anderen Studien) oder direkter (Verlinkung mit z. B. Registern oder Krankenakten) Vergleich mit externen Daten erfolgen, um die Validität der GKV-Routinedaten zu überprüfen. Im Vergleich zu bereits extensiv validierten „medical records“ Datenbanken wie der Clinical Practice Research Datalink Datenbank in Großbritannien (früher General Practice Research Database) stellen GKV-Routinedaten insbesondere aufgrund hoher datenschutzrechtlicher Hürden bei Projekten, in denen GKV-Routinedaten mit anderen Daten verknüpft werden sollen, eine vergleichsweise wenig validierte Datengrundlage dar. Nichtsdestotrotz wurden und werden hierzulande diverse Informationen in den GKV-Daten im Rahmen von Validierungsstudien überprüft [37, 38, 39, 40, 41]. So konnte in einer Studie zur Validierung des Verordnungs- und Abgabedatums von Arzneimitteln in den GKV-Routinedaten gezeigt werden, dass die Verordnungsdaten zu 90,4 % und die Abgabedaten zu 76,6 % mit dem Originalrezept übereinstimmten [38]. In einer von uns durchgeführten Validierungsstudie zu mortalitätsassoziierten Informationen in GKV-Routinedaten zeigten sich Mortalitätsraten, die mit Daten des Statistischen Bundesamtes vergleichbar waren bzw. aufgrund der höheren Sozialstruktur in 2 von 3 der beteiligten Krankenkassen zu erwartende Unterschiede aufwiesen [40]. Im Rahmen von internen Diagnosevalidierungen zeigten Schubert und Kollegen exemplarisch, dass beispielsweise Personen mit einer Diagnose Herzinsuffizienz zu 97,1 % weitere für diese Erkrankung typische Abrechnungsinformationen (z. B. Arzneimittelverschreibungen) aufwiesen, was bei Erkrankungen wie Demenz oder Tuberkulose seltener zu beobachten war [41]. Hingegen zeigte sich in einer unserer Studien zur Wirksamkeit verschiedener Insulintherapien bei Patienten mit Diabetes mellitus Typ II, dass 45,6 % der in die Studie einbezogenen Patientinnen und Patienten sowohl Diagnosen zu Diabetes mellitus Typ I als auch zu Diabetes mellitus Typ II aufwiesen [37]. Bezogen auf die Arzneimittelversorgung fanden wir allerdings plausible und leitliniengetreue Verschreibungsmuster, die nahelegten, dass eine verlässliche Identifikation von Patientinnen und Patienten mit Diabetes mellitus Typ II eher anhand von Verschreibungen als anhand von Diagnosen erfolgen sollte.

Kontinuierliche Erhebung und Verfügbarkeit

Wie bereits beschrieben, stellen GKV-Routinedaten Prozessdaten dar, die automatisch im Abrechnungsprozess zwischen Leistungserbringern und GKV anfallen und jährlich vorliegen. Seit dem 01.01.2004 besteht für die Kassenärztlichen Vereinigungen die Pflicht, die ambulanten Diagnose- und Leistungsdaten an die jeweilige Krankenkasse der Versicherten weiterzuleiten, sodass ab diesem Zeitpunkt das ambulante Leistungsgeschehen in die GBE mit einbezogen werden kann. In Projekten, die die ambulanten ärztlichen Daten direkt von der KV beziehen, liegen die Daten auch vor 2004 versichertenbezogen vor. Der Genehmigungsprozess der Datenübermittlung von GKV-Daten für Forschungszwecke nach § 75 SGB X ist zurzeit mit hohem administrativem Aufwand verbunden und umfasst oft lediglich Daten einzelner Krankenkassen, mit denen nur bedingt repräsentative Aussagen getätigt werden können.

Eine Verbesserung der Verfügbarkeit von GKV-Routinedaten für die Forschung ist durch das Anfang 2012 in Kraft getretene GKV-Versorgungsstrukturgesetz zu erwarten. In der Ausführung dieses Gesetzes erhält eine öffentliche Stelle des Bundes (Deutsches Institut für Medizinische Dokumentation und Information) vom Bundesversicherungsamt (BVA) die Daten, die dem BVA im Rahmen des Risikostrukturausgleichs von den Krankenkassen übermittelt wurden, zur weiteren Aufbereitung und soll diese in Zukunft auf Antrag unter anderem forschenden Einrichtungen für die wissenschaftliche Forschung zugänglich machen. Zurzeit befindet sich die Datenübermittlung an forschende Einrichtungen noch in Vorbereitung. Diese Daten bieten den Vorteil, dass krankenkassenspezifische Merkmale der Versichertenstruktur hier weitgehend eliminiert sind, da dies die Daten von allen GKV-Versicherten umfasst. Vergröberte oder fehlende Informationen (z. B. Regionalmerkmal, EBM, oder Facharztdisziplin) schränken die Nutzbarkeit auch für die GBE des Bundes ein. Die Einschränkungen im Datenumfang in den Morbi-RSA-Daten werden von Mansky et al. [42] näher ausgeführt.

Bevölkerungsgruppenspezifische Aussagen

GKV-Routinedaten liegen in der Regel in großen Stichprobenumfängen vor. Die Versichertenstichprobe des „Leibniz-Instituts für Präventionsforschung und Epidemiologie – BIPS“ umfasst derzeit beispielsweise ca. 17 Mio. Versicherte. Entsprechend große Datenbestände ermöglichen es, selbst in tiefgliedrigen Stratifizierungen belastbare Aussagen zu treffen, was insbesondere in der kleinräumigen Analyse von Morbiditätslasten und Versorgungssituationen sowie bei der Analyse von seltenen Erkrankungen hilfreich ist. Darüber hinaus können anhand von GKV-Routinedaten geschlechts- und altersstratifizierte Analysen durchgeführt werden, wobei alle Altersgruppen abbildbar sind. Weiter sind in den Daten Informationen zum Versichertenstatus (haupt- oder familienversichert), der Nationalität oder für Hauptversicherte auch Informationen zum Bildungs- und Berufsstatus enthalten, wobei die Angaben zu Bildung, Beruf und Nationalität häufig lückenhaft sind.

Fazit

Insgesamt ermöglichen GKV-Routinedaten eine Vielzahl von Analysen, die im Rahmen der GBE des Bundes benötigt werden. Vor dem Hintergrund der zukünftig langen Zeiträume, für die Informationen zu den einzelnen Versicherten vorliegen werden, den großen Datenbeständen und der Abwesenheit von Verzerrungen wie dem Selektions- und dem Recall-Bias stellen Routinedaten der GKV eine wertvolle Datenquelle für die GBE des Bundes dar, die bis jetzt aufgrund der administrativen Hürden zur Nutzung dieser Daten vergleichsweise wenig verwendet wurde. Gesetzesänderungen, die die Nutzung von Stamm- und Leistungsdaten aller in der GKV versicherten Personen ermöglichen sollen, werden diese Situation möglicherweise ändern. Vorgesehen ist, dass dem DIMDI die Daten übermittelt werden, die bisher dem BVA zur Durchführung des morbiditätsorientierten Risikostrukturausgleichs vorlagen. Entsprechende Datenbestände, die zurzeit am DIMDI aufgebaut werden, könnten aufgrund der hohen Abdeckung der in Deutschland lebenden Bevölkerung eine attraktive Datengrundlage für Gesundheitsberichte der GBE des Bundes darstellen. Allerdings ist der Variablenumfang zurzeit noch begrenzt und für die GBE wichtige Information, wie z. B. Angaben zum Wohnort des Versicherten, der Arztdisziplin oder Leistungen aus den Bereichen Pflege und Rehabilitation, sind derzeit in den Daten des DIMDI nicht vorhanden. Trotz dieser Einschränkung können wichtige Themen der GBE aus den Bereichen Gesundheitliche Lage, Determinanten der Gesundheit und Gesundheitsversorgung behandelt werden. Auch für Berichte zu einzelnen Aspekten der Prävention (z. B. Impfungen) und zu Querschnittsthemen wie der Gesundheit von Kindern und Jugendlichen lassen sich die Daten nutzen. Diesbezüglich uneingeschränkte Datenbestände ermöglichen hingegen umfangreichere und vollständigere Analysen. Daten einzelner Krankenkassen könnten in Berichte einfließen, in denen zielgruppen-, sektor- oder krankheitsspezifisch berichtet wird. Darüber hinaus können Informationen aus großen Surveys wie der Studie zur Gesundheit Erwachsener in Deutschland (DEGS) oder der Nationalen Kohorte mit Daten der GKVen angereichert werden, um hierdurch unter anderem die Erfassung derzeitiger oder zurückliegender Morbidität zu verbessern. Im Falle dieser personenbezogenen Verlinkung ist eine Einverständniserklärung des Versicherten einzuholen. Darüber hinaus bietet der Vergleich mit den Abrechnungsdaten der Krankenkassen auf der aggregierten Ebene die Möglichkeit, die Repräsentativität der Studienpopulation von Gesundheitssurveys für ausgewählte Aspekte abzuschätzen. Somit wäre nicht nur die verbesserte Erschließung und verstärkte Nutzung der GKV-Routinedaten, sondern auch die Möglichkeit der Verknüpfung von Survey- und Routinedaten ein Gewinn für die GBE des Bundes.