Weltweit leiden Millionen Menschen an einer seltenen Krankheit. Die Erstellung einer Diagnose für die Betroffenen kann eine enorm komplexe Aufgabe sein, insbesondere bei seltenen Erkrankungen, bei denen häufig mehrere Organsysteme betroffen sind. Ein Teil der Komplexität entsteht durch die Tatsache, dass es bereits über 8000 benannte seltene Erkrankungen gibt. Diese Komplexität wird noch gesteigert, da Patienten nicht immer alle zu erwartenden Symptome zeigen oder aber zusätzliche, für die Diagnosefindung irrelevante, Symptome haben. Die geringe Zahl von Patienten mit einer bestimmten Erkrankung erschwert die Diagnosestellung für die behandelnden Ärzte zusätzlich.

Daraus folgt, dass Menschen mit seltenen Erkrankungen oft eine „diagnostische Odyssee“ durchleben und normalerweise 5–30 Jahre auf eine Diagnose warten. Während dieser Zeit müssen sie sich bei drei oder mehr Ärzten vorstellen und in mindestens 40 % der Fälle ist die initiale Verdachtsdiagnose falsch [15]. Klinische Probleme, die durch eine verzögerte oder falsche Diagnose entstehen, sind ein verspäteter Beginn wichtiger Behandlungsschritte, unnötige diagnostische Untersuchungen und eine enorme psychische Belastung durch die unklare Ursache und Prognose der Erkrankung.

Eine Idee, dieses Problem anzugehen, ist, zuerst die klinischen Phänotypen (Symptome/klinische Auffälligkeiten) der Patienten systematisch und umfassend zu katalogisieren und anschließend automatisierte, mathematisch fundierte Verfahren zur Unterstützung bei der Diagnosefindung anzuwenden. Das Wort Phänotyp hat diverse Definitionen, eine davon ist die „Menge aller Merkmale eines Organismus“. Unter Merkmalen in diesem Sinne sind morphologische und physiologische Eigenschaften auf der Ebene von Zellen, Organen, aber auch des gesamten Organismus, beispielsweise Verhaltenseigenschaften, gemeint. In dieser Arbeit bezeichnen wir als Phänotyp eine Abweichung von der normalen Physiologie, Morphologie oder Verhaltensweise. Beispielsweise wird lediglich der Fakt abnorm erhöhter oder verringerter Thrombozytenwerte als phänotypisch auffällig betrachtet, ungeachtet der tatsächlichen Anzahl an Thrombozyten eines Patienten. Ein komplettes und detailliertes Verständnis der mit den jeweiligen Krankheiten assoziierten Phänotypen ist essenziell, um einschätzen zu können, ob der gegebene Phänotyp eines Patienten mit dessen Grunderkrankung zusammenhängt oder nur ein isoliertes Ereignis darstellt. Das wiederum ist wichtig für die korrekte Einschätzung von Behandlung und Prognose.

Das System muss erkennen können, welche klinischen Beschreibungen dieselbe Bedeutung haben

Automatisierte phänotypbasierte Analysen werden allerdings erschwert, da phänotypische Informationen in klinischen Datenbanken oder Studien oftmals als Freitext oder in Form vorgefertigter Antwortmöglichkeiten eingegeben werden. Dies ist aus informatischer Sicht suboptimal und führt zu Situationen wie in Abb. 1a gezeigt. Dort ist für diverse Patienten mit dem gleichen klinischen Symptom (Thrombozytopenie) eine unterschiedliche Beschreibung verwendet worden. Für computerbasierte Systeme ist es ohne weitere Informationen unmöglich zu erkennen, welche klinischen Beschreibungen dieselbe Bedeutung haben oder aber in welcher Beziehung diese zueinander stehen (z. B. Subklassenbeziehungen). Dies ist aber Voraussetzung dafür, auf Grundlage solcher phänotypischen Beschreibungen verschiedene Studien, Patienten oder Krankheiten miteinander automatisiert vergleichen oder gruppieren zu können. In Abb. 1a wird bei einer Abfrage der Datenbank nach „low platelet count“ anstatt der zu erwartenden 4 Patienten nur einer identifiziert, da nur bei diesem Patienten genau diese Zeichenfolge gewählt wurde (Erinnerung: Computer sind dumm – erstmal). In Abb. 1b ist eine ähnliche Problematik illustriert. Hier wird versucht, alle Patienten mit Abnormität der Thrombozyten zu extrahieren. Diese Abfrage führt zu keinem Ergebnis, da die nötigen Informationen für die Erkenntnis fehlen, dass alle gezeigten Patienten eigentlich eine spezielle Form von Thrombozytenauffälligkeit haben, nämlich eine Erhöhung bzw. Erniedrigung der Thrombozytenzahl.

Abb. 1
figure 1

Probleme und Lösungen bei der phänotypbasierten Extraktion von Informationen aus Datenbanken. Die Datenbank in a enthält 5 Patienten (Vierecke), deren klinische Phänotypen mittels Freitext beschrieben wurden. Es werden Abfragen an diese Datenbank gestellt. In Rot werden die Patienten gezeigt, die auf die Abfrage zutreffen und in Grau diejenigen, die nicht als Treffer betrachtet werden. In a wird eine Abfrage nach allen Patienten mit „low platelet count“ (niedrige Thrombozytenzahl) gestellt. In diesem Fall wird nur ein Patient zurückgegeben, da die Algorithmen nicht erfassen können, dass die Zeichenfolgen „thrombocytopenia“ und „decreased platelet count“ (reduzierte Thrombozytenzahl) die gleiche Bedeutung haben wie „low platelet count“. In b wird eine allgemeinere Abfrage nach allen Patienten mit einer Auffälligkeit der Thrombozyten gestellt. Der Computer gibt hier keinen Patienten zurück, da ihm die Verbindung zwischen „abnormality of thrombocytes“ (Abnormität der Thrombozyten) und beispielsweise „low platelet count“ unbekannt ist. In c und d wird gezeigt, wie die Informationen in der HPO genutzt werden können, um solche Abfragen korrekt zu beantworten. In c wird wie in a eine Abfrage nach Patienten mit „low platelet count“ gestellt. In der HPO ist gespeichert, dass diese Zeichenfolge ein Synonym der HPO-Klasse HP:0001873 ist. Es ist nun möglich, alle Patienten, die mit der HPO-Klasse annotiert wurden, zurückzugeben (4 von 5 Patienten). In d wird analog zu b eine Abfrage nach allen Patienten mit einer „abnormality of thrombocytes“ gestellt. Dies könnte beispielsweise genutzt werden, um eine Patientenkohorte zu definieren. Hier wird die Suklassenstruktur der HPO genutzt, um festzustellen, dass alle 5 Patienten mit Subklassen (also einem spezielleren Konzept) von „abnormality of thrombocytes“ annotiert wurden, nämlich mit Klassen für die Erhöhung bzw. Erniedrigung des Thrombozytenwerts. HPO Human Phenotype Ontology

Human Phenotype Ontology

Eine Hilfe für die verlässliche computerbasierte Analyse von Symptomen stellt die Human Phenotype Ontology (HPO) dar, die seit fast 10 Jahren aktiv entwickelt wird. Eine Ontologie ist eine Form der Wissensrepräsentation und enthält eine standardisierte Terminologie sowie die Beziehungen zwischen den dort definierten Begriffen [9]. Die HPO (http://www.human-phenotype-ontology.org, [11, 14]) ist eine frei erhältliche Ontologie, um mit Krankheiten einhergehende phänotypische Auffälligkeiten zu erfassen. Sie stellt außerdem umfangreiche bioinformatische Ressourcen für die Analyse von menschlichen Erkrankungen und Phänotypen zur Verfügung und bildet somit eine informatische Verbindung zwischen Phänotypen/Symptomen, Biologie, klinischer Forschung und klinischer Medizin.

Weltweit tragen Experten zu Inhalt und Qualität der HPO bei

Die HPO hatte primär das Ziel, die Integration von phänotypischen Informationen zwischen wissenschaftlichen und medizinischen Disziplinen sowie zwischen Datenbanken zu verbessern. Seit der ersten Veröffentlichung wächst die HPO beständig, indem Experten weltweit zu Inhalt und Qualität beitragen, beispielsweise über European Reference Networks. Mittlerweile wird sie von Forschern und Ärzten weltweit genutzt.

Die HPO hat mehrere unabhängige Hierarchien:

  • „Phänotypische Abnormität“

  • „Vererbungsmodus“

  • „Häufigkeit“

  • „Klinischer Verlauf“

  • „Klinischer Modifikator“

Derzeit enthält sie 13.348 Klassen und deren semantische Beziehungen zueinander (siehe beispielsweise Abb. 2). Jede Klasse der Subontologie „Phänotypische Abnormität“ beschreibt eine einzelne phänotypische Auffälligkeit (Symptom, klinische Eigenschaft). Jede Klasse hat eine primäre Bezeichnung, eine Liste von Synonymen, eine menschen- und eine maschinenlesbare Definition, mindestens eine Überklasse und Verlinkungen zu anderen Vokabularen wie der Internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme (ICD), dem Unified Medical Language System (UMLS), dem Medical Dictionary for Regulatory Activities (MedDRA) oder der Systematized Nomenclature of Medicine (SNOMED; Tab. 1).

Abb. 2
figure 2

Ausschnitt aus der Human Phenotype Ontology (HPO). Kreise repräsentieren Klassen (manchmal auch Terme genannt) der HPO, z. B. „thrombocytopenia“. Hier sind lediglich die primären Bezeichnungen der HPO-Klassen dargestellt. Weitere Informationen, die zu einer HPO-Klasse gehören, sind in Tab. 1 gezeigt. Die HPO-Terme stehen miteinander in Subklassenbeziehungen, die hier durch Pfeile visualisiert werden. Beispielsweise ist „thrombocytopenia“ eine Subklasse von „abnormal platelet count“ (abnorme Thrombozytenzahl). HPO-Terme können verwendet werden, um Krankheiten oder Patienten phänotypisch zu beschreiben

Tab. 1 Informationen, die mit einer HPO-Klasse assoziiert sind. Wichtigste Attribute der HPO-Klasse „Thrombozytopenie“

Insgesamt enthält die HPO 16.881 Synonyme. Wir haben 10.374 Freitextdefinitionen erstellt, die genau beschreiben, was mit entsprechenden Termen gemeint ist. Zusätzlich gibt es logikbasierte, maschinenverständliche Definitionen, die wiederum Klassen aus anderen, grundlegenderen, Ontologien, wie etwa Anatomie- oder Proteinontologien verwenden. Diese können zum automatisierten Schlussfolgern genutzt werden, wie die Bestimmung der Überklassen einer HPO-Klasse.

Exakte Symptomvergleiche

Dieser Beitrag soll nun unter anderem die Frage beantworten, wie die Codierung von Symptomen in der HPO helfen kann, verlässlich Informationen zu extrahieren und somit zu einer sinnvollen Hypothese über das zugrunde liegende Syndrom eines Patienten zu kommen.

In Abb. 1c ist gezeigt, wie die HPO genutzt wird, um Patienten mit dem Symptom „low platelet count“ zu identifizieren. Alle Patienten wurden hier mit der korrekten HPO-Klasse (HP:0001873 bzw. HP:0001894) annotiert, das heißt verknüpft. Die HPO kann nun genutzt werden, um zu erfassen, dass „low platelet count“ ein Synonym der HPO-Klasse „thrombocytopenia“ (HP:0001873) ist. So lassen sich 4 der 5 Patienten identifizieren.

In Abb. 1d sieht man eine ähnliche Situation. Hier wird versucht, alle Patienten zu finden, die eine „abnormality of thrombocytes“ (Abnormität der Thrombozyten) haben (analog zu Abb. 1b). Der Computer kann bei dieser Abfrage die Subklassenbeziehungen in der HPO verwenden, das heißt die HPO-Klasse „abnormality of thrombocytes“ hat die Subklassen „abnormal platelet count“ (direkt), „thrombocytosis“ und „thrombocytopenia“ (indirekt). Da alle Patienten in der Beispieldatenbank in Abb. 1d zu Subklassen von „abnormality of thrombocytes“ annotiert sind, würde das System nun korrekterweise alle Patienten als Treffer zurückgeben. In Abb. 1c, d kann man also sehen, wie der Computer die strukturierten und mit Semantik versehenen Informationen der HPO nutzen kann, um solche einfachen Filterabfragen korrekt zu beantworten, die mit reinen Textvergleichen zu ungenauen Ergebnissen führen.

Unscharfe („fuzzy“) Symptomvergleiche

Nun zeigen aber nicht alle Patienten eine textbuchartige Liste von Symptomen. Oft haben sie fehlende oder zusätzliche Auffälligkeiten. Das bedeutet, dass die im vorherigen Abschnitt beschriebenen Ansätze nicht funktionieren, da die zu vergleichenden HPO-Klassen nicht exakt übereinstimmen oder nicht miteinander in Subklassenbeziehung stehen. In diesen Fällen befinden sich die HPO-Klassen in verschieden Zweigen der HPO, haben aber, je nach Situation, viele oder wenige gemeinsame Vorfahren. Hier liegt eine der Stärken der HPO, denn sie kann verwendet werden, um mithilfe der Berechnung von semantischer Ähnlichkeit einen Zahlenwert zu bestimmen, der aussagt, wie ähnlich zwei Symptome zueinander sind. Auf die mathematischen Details soll hier verzichtet werden, da sie in diversen Beiträgen genauer beschrieben wurden [13, 16, 26].

Semantische Ähnlichkeit wird im Prinzip immer über die Subklassenstruktur der HPO bestimmt

Semantische Ähnlichkeit wird im Prinzip immer über die Subklassenstruktur der HPO bestimmt. Bei der Berechnung einer Ähnlichkeit zwischen diesen HPO-Klassen wird dann betrachtet, wie viel die beiden Klassen gemeinsam haben. Zum Beispiel würde „thrombocytopenia“ zu „impaired platelet adhesion“ (gestörte Thrombozytenadhäsion) eine höhere Ähnlichkeit haben als zu „cirrhosis“, da es im ersten Fall den relativ spezifischen gemeinsamen Vorfahren „abnormality of thrombocytes“ gibt. „Cirrhosis“ und „thrombocytopenia“ haben allerdings keine Gemeinsamkeiten in der HPO. Es wird dann gemessen, wie spezifisch diese gemeinsame Klasse ist. Dafür bekommt jede Klasse in der HPO einen Wert für den Informationsgehalt zugewiesen, der sich aus dem Anteil der mit ihr verknüpften Krankheiten an allen Krankheiten ergibt (zusätzlich wird der negative Logarithmus davon berechnet [19]). Für jedes Symptom des Patienten werden dann der beste gemeinsame Vorfahr in der HPO mit der jeweiligen Erkrankung und der durchschnittliche Informationsgehalt der Gemeinsamkeiten ermittelt [13]. Dieses Maß der semantischen Ähnlichkeit kann in Software wie dem Phenomizer verwendet werden, um die Ähnlichkeit der Symptome eines Patienten mit allen bekannten seltenen Erkrankungen zu berechnen, was im Folgenden beschrieben werden soll.

Phenomizer für exakte und „fuzzy“ Suche in allen seltenen Erkrankungen

Der Phenomizer ermöglicht es, das HPO-Profil eines Patienten mit den HPO-Profilen von über 8000 seltenen Erkrankungen zu vergleichen und die am besten passenden als mögliche Diagnosen vorzuschlagen. Dafür werden HPO-annotierte Profile für alle Erkrankungen vorausgesetzt. Bei einem HPO-annotierten Profil wird das phänotypische Spektrum einer Erkrankung als eine Menge von HPO-Klassen beschrieben. Als Grundlage für solche Annotationen greift das HPO-Projekt auf Datenbanken wie Orphanet [18], DECIPHER [4] und OMIM [2] zurück. Derzeit sind etwa 147.000 Annotationen für diese Krankheiten verfügbar. Jede Annotation kann auch mit Metainformationen versehen werden, so etwa mit dem Alter beim Auftreten eines Symptoms, der Frequenz, mit der Patienten dieses Symptom haben, und Referenzen für die Annotation, beispielsweise Publikationen.

Als Beispiel für die Funktionsweise des Phenomizer soll eine Patientin dienen, die von M.D. Cappellini auf dem Kongress für Innere Medizin in Spanien im Jahr 2010 vorgestellt wurde [6] und die über 40 Jahre auf ihre Diagnose warten musste. Im Alter von 10 bis 14 Jahren litt sie unter sehr starken Knochenschmerzen, die fälschlicherweise als Osteomyelitis diagnostiziert wurden. Mit 20 Jahren entwickelte sie eine chronische Hepatitis und wurde zum Hepatologen überwiesen. Aufgrund einer Splenomegalie mit unklarer Ätiologie erfolgte eine Splenektomie. Im Alter von 26 Jahren stellten ihre Ärzte eine Leberzirrhose, leichte Hepatomagalie und Cholestase fest. Mit 58 Jahren schließlich stellte sie sich erneut mit einer Anämie und hämorrhagischen Episoden vor, woraufhin ein Hämatologe eine Knochenmarkpunktion veranlasste, bei der Gaucher-Zellen festgestellt wurden.

Wir wollen den Fall dieser Patientin nun mit dem Phenomizer durchgehen. Wir geben dazu die Begriffe Anämie („anemia“ [HP:0001903]), Zirrhose („cirrhosis“ [HP:0001394]), Hepatomegalie („hepatomegaly“ [HP:0002240]), Splenomegalie („splenomegaly“ [HP:0001744]) und Knochenschmerzen („bone pain“ [HP:0002653]) ein (Abb. 3). Der Phenomizer berechnet nun die semantische Ähnlichkeit für jede seltene Erkrankung, die in der HPO mit einem Profil hinterlegt ist. Die Erkrankung mit dem höchsten Ähnlichkeitswert wird dann an erster Stelle aufgelistet.

Abb. 3
figure 3

Phenomizer als Hilfsmittel für die Differenzialdiagnose bei einer Patientin mit seltener Erkrankung [6]. a Eingabe der phänotypischen Auffälligkeiten der Patientin, b geordnete Liste aller seltenen Erkrankungen in HPO. Hierbei werden die Erkrankungen mit übereinstimmenden phänotypischen Mustern weiter vorne platziert als andere

Der Ähnlichkeitswert spiegelt den Grad der Überlappung der Symptome der Patientin mit den für die jeweilige Erkrankung bekannten Symptomen wider (siehe Abschnitt „Unscharfe [,fuzzy‘] Symptomvergleiche“). Es werden insbesondere solche Erkrankungen eine hohe Ähnlichkeit aufweisen, deren Muster den Symptomen der Patientin ähnlich sind, die also beispielsweise gleichzeitig eine Blutauffälligkeit, eine Leberproblematik und Knochensymptome zeigen. Dieser Ähnlichkeitswert ist aber in hohem Maße von der Anzahl der annotierten HPO-Klassen abhängig [20], weshalb für jeden Ähnlichkeitswert ein p-Wert berechnet wird, um zu bestimmen, wie wahrscheinlich dieser Wert auch mit einer zufälligen Anfrage entstanden wäre.

Gerade die wichtigsten Phänotypen sollten mit größtmöglicher Spezifität angegeben werden

Dementsprechend listet der Phenomizer in der Standardeinstellung die Erkrankungen mit den geringsten p-Werten auf den ersten Rängen. In unserem Beispiel listet der Phenomizer „Gaucher disease“ (Morbus Gaucher) auf der ersten Ergebnisseite. Wenn wir nun noch „anemia“, „hepatomegaly“ und „cirrhosis“ als zwingend notwendig („mandatory“) angeben (Abb. 3a), wird der Phenomizer lediglich Krankheiten in Betracht ziehen, die genau mit diesen Symptomen (oder deren Subklassen) annotiert wurden. Das heißt, eine Erkrankung, die anstelle von „bone pain“ nur mit der Überklasse „pain“ (Schmerz) annotiert wurde, würde in den Ergebnissen nicht angezeigt. Der Phenomizer listet daraufhin „Gaucher disease“ und „Gaucher disease type 1“ auf Platz 2 bzw. 3 (Abb. 3b), was eventuell einem Kliniker einen wertvollen Hinweis gegeben und zu einer Diagnose bei der Patientin vor dem 30. Lebensjahr geführt hätte.

Grundsätzlich gilt, dass computerbasierte Suchalgorithmen, die auf der HPO basieren, deutlich besser funktionieren, wenn ein umfassendes phänotypisches Profil („deep phenotyping“) bereitgestellt wird. Daher wird geraten, gerade die auffälligsten und wichtigsten Phänotypen mit größtmöglicher Spezifität anzugeben. Dabei muss man sich vor Augen führen, dass das phänotypische Profil mit allen bekannten HPO-Profilen verglichen wird, beispielsweise mit dem Marfan- oder Williams-Beuren-Profil.

Phänotypbasierte genomische Diagnostik

Die Mehrzahl der über 8000 bekannten seltenen Erkrankungen hat mutmaßlich einen genetischen Ursprung. Trotz moderner DNA-Sequenziertechniken liegt die diagnostische Erfolgsquote in den meisten Studien unter 40 % [25]. Im Folgenden sollen Ansätze zur Verbesserung dieser Situation beschrieben werden, indem die HPO und die zuvor beschriebenen Algorithmen zur phänotypgetriebenen Analyse genomischer Variationen angewandt werden.

Leider gibt es auch bei DNA-Variations-Datenbanken das Problem der Darstellung von Symptominformationen. Meist wird nur der Fakt abgespeichert, dass eine gewisse Erkrankung in einer Person mit einer bestimmten Genvariante diagnostiziert wurde. Diese Information hilft einem Diagnostiker, der einen Bericht über eine Genvariante schreiben will und in der Datenbank sieht, dass es bereits einen unabhängigen Fall mit der gleichen Genvariation gibt. Weniger hilft diese Information allerdings dabei, die Pathogenese der Erkrankung aufzuklären, das Spektrum der Phänotypen einer Erkrankung vollständig zu beschreiben oder detaillierte Genotyp-Phänotyp-Korrelationen zu erstellen.

Ein typisches Exom, das heißt die Menge aller codierenden DNA-Sequenzen, enthält bis zu 100.000 Variationen. Da seltene Erkrankungen auch meist durch seltene DNA-Variationen verursacht werden, filtert man die häufig gesehenen Varianten heraus (Abb. 4 links). Meist werden Varianten ausgeschlossen, die eine Häufigkeit von ≥1 % in den Daten des 1000 Genomes Project [1] haben. Anschließend wird jeder Variante ein Zahlenwert (Variantenscore) zugewiesen, der aussagt, wie pathogen diese vermutlich ist (z. B. MutationTaster [21]). Solche Verfahren nutzen unter anderem Informationen über die Art der Veränderung (beispielsweise synonym oder nichtsynonym) und die evolutionäre Konservierung der Base. Das Wichtige für diesen Beitrag ist aber, dass die Bewertung die klinische Information über den Patienten nicht beachtet.

Abb. 4
figure 4

Phänotypgetriebene Priorisierung von exonischen Varianten bei Patienten mit seltenen Erkrankungen. Ein Exom enthält zahlreiche Varianten (gelbe Blitze). Auf der linken Seite sieht man den Ansatz, diese Varianten zuerst zu filtern und häufige Varianten auszuschließen. Anschließend werden die Varianten mit diversen Methoden anhand von genomischen Merkmalen wie der Konservierung auf ihre vorhergesagte pathogene Wirkung hin bewertet (Größe der Blitze). Dieser Strang der Analyse vernachlässigt allerdings wertvolle Informationen über die Symptome der Patienten. Diese Informationen werden im zweiten Strang der Analyse (rechts) betrachtet, indem die HPO-codierten Phänotypen des Patienten mit bekannten Phänotypen der Gene verglichen werden. In dieser Analyse wird also die phänotypische Relevanz der Varianten im Kontext der Symptome des Patienten bewertet. Am Ende werden die beiden Stränge zusammengeführt und zu einem Score verrechnet, sodass Varianten mit hohem Pathogenitätspotenzial bei gleichzeitig hoher phänotypischer Relevanz am höchsten bewertet werden. HPO Human Phenotype Ontology

Mithilfe der HPO ist es möglich, jeder Variante in einem Gen ein HPO-Profil zuzuweisen. So kann man etwa das Gen APC mit dem Phänotyp „small intestinal carcinoid“ verknüpfen, da es eine durch APC-Mutationen bedingte Erkrankung gibt und Patienten mit dieser Erkrankung typischerweise ein „small intestinal carcinoid“ haben. Tools wie PhenIX [26] oder Exomiser [22] bewerten also jede Variante mit einem Variantenscore, aber auch parallel mit einem Score für die phänotypische Relevanz einer Variante. Dazu wird die semantische Ähnlichkeit zwischen dem HPO-Profil der Varianten und dem HPO-Profil der Patienten berechnet. Im letzten Schritt werden der Variantenscore und der Score für phänotypische Relevanz kombiniert, um Varianten hervorzuheben, die bei beiden Scores einen hohen Wert haben. Wir konnten zeigen, dass gerade diese Kombination hilfreich bei der Identifikation krankheitsrelevanter genomischer Variationen ist [22, 26].

Ausblick

Der Phenomizer wurde vor einigen Jahren entwickelt und in der Zwischenzeit wenig an die modernen Möglichkeiten der Webinterface-Entwicklung angepasst. Derzeit arbeiten wir an einer modernisierten Software, die auch die zahlreichen Anmerkungen der Nutzer in den letzten Jahren berücksichtigt und noch verlässlichere Algorithmen zur Ähnlichkeitsberechnung bietet [10, 12, 23].

Die HPO wird seit einigen Jahren für komplexe genetische Erkrankungen und Volkskrankheiten erweitert [8]. Sie wird von einer zunehmenden Anzahl von Forschungsgruppen eingesetzt und kommt auch im klinischen Kontext zur Anwendung [3, 17]. Wir verstehen uns als Open-Science-Projekt, was bedeutet, dass wir sämtlich Daten und Ressourcen frei im Internet anbieten. Unser Wunsch ist es, Benutzer dazu zu motivieren, Probleme und Verbesserungsvorschläge an uns heranzutragen, sodass im Endeffekt alle Benutzer davon profitieren. In unserem Ticketsystem ist es möglich, sowohl Änderungen zur Ontologie als auch fehlende oder falsche Krankheitsverknüpfungen zu melden (https://github.com/obophenotype/human-phenotype-ontology/issues).

Die HPO hat sich als leistungsstarkes Werkzeug für die Differenzialdiagnose und translationale Forschung erwiesen. Sie wird von diversen internationalen Projekten und Datenbanken genutzt, so etwa vom 100,000 Genomes Project in Großbritannien, von PhenomeCentral [5], RD-Connect [7] und Solve-RD (http://www.solve-rd.eu). Forschungsgruppen in China, Japan, Frankreich, Spanien, Kolumbien und Italien haben bereits einen beträchtlichen Teil der HPO übersetzt. Deutsche, polnische, türkische und russische Übersetzungen befinden sich ebenfalls in Arbeit (crowdin.com/project/hpo-translation). Ein internationales Team hat vor Kurzem eine Erweiterung in Laiensprache erstellt [24].

In Zukunft werden wir vorrangig an Erweiterungen der HPO für die Präzisionsmedizin, Krebs sowie Fehlbildungen mit nichtmendelscher Vererbung arbeiten. Ein weiterer Fokus wird die automatisierte Erkennung von HPO-Klassen in klinischen Texten sein.

Fazit für die Praxis

  • Kontrollierte Vokabulare sind enorm wichtig, um Daten verlässlich extrahieren und analysieren zu können. Gerade Daten über klinische Auffälligkeiten sind essenziell, um bei Patienten mit seltenen Erkrankungen computerbasierte Analysen zu ermöglichen, die bei der Differenzialdiagnostik und genomischen Diagnostik enorm hilfreich sind.

  • Die Human Phenotype Ontology (HPO) hat sich in den letzten Jahren zum weltweit akzeptierten Standard für die Beschreibung klinischer Auffälligkeiten entwickelt und ist das Grundgerüst für weitergehende Anwendungen wie den Phenomizer. Es existieren diverse HPO-basierte Werkzeuge für die genomische Analyse, so etwa Exomiser, Phen-Gen, Genomiser, PhenIX und diverse kommerzielle Lösungen.

  • Die Verwendung solcher Werkzeuge kann in der Praxis nur erfolgreich geschehen, wenn für die Patienten ein möglichst exaktes HPO-Profil erstellt wurde. Dies sollte relativ frühzeitig in die Planungen einbezogen werden, da es retrospektiv mit mehr Zeitaufwand verbunden sein kann.