Auswerten mit GTDS

Einführung

Bei der Entwicklung des GTDS wurde entschieden, daß die Anwendung auf einer möglichst redundanz- und damit widerspruchsfreien Datenbank beruhen soll. So soll zum Beispiel der Name des Patienten nicht bei jedem Tumordatensatz stehen, sondern in einer Patientenstamm-Tabelle, damit z.B. Änderungen nur an einer Stelle durchgeführt werden müssen. Des weiteren werden zum Beispiel auch Metastasen nicht in der Tumortabelle gespeichert, weil sonst z.B. nur eine begrenzte Anzahl von Metastasen gespeichert werden könnte (z.B. Metastase1 bis Metastase3). Es ist daher sinnvoller, Metastasen in einer Extra-Tabelle zu speichern. Solche Überlegungen wurden für eine Vielzahl von Informationen durchgeführt. Dieses Vorgehen, EDV-technisch "Normalisierung" genannt, führte dazu, daß die Daten innerhalb des GTDS auf eine Vielzahl von Tabellen verteilt sind.

Bei einer Auswertung möchte man andererseits häufig wissen, welcher Tumor eine Metastase verursacht hat und wie die Person heißt oder wann sie geboren ist. Zu diesem Zweck muß man Tabellen wieder zusammenführen. Die Sprache hierzu nennt sich SQL und muß relativ aufwendig erlernt werden. Darüber hinaus muß man das sogenannte Datenmodell des GTDS kennen, um die Tabellen richtig zusammenzuführen. Diese Erfahrungen können jedoch nicht an jedem Ort vorausgesetzt werden. Hier bieten sich zwei Strategien an:

Programmieren fester Statistiken: Der Benutzer bestimmt, was er wissen/zählen möchte, und die Entwickler schreiben einen Bericht, den man dann zum Beispiel in der Berichtsauswahl der Leitstellen-Maske anwählen kann.
Aufbereiten von Daten für eigene Zählungen: Häufig benötigte Daten aus verschiedenen Tabellen werden in einer Tabelle zusammengeführt, die dann der Benutzer selbst auswerten kann.

Das erste Vorgehen hat den Vorteil, daß es leicht zu starten ist und wenige Angaben als Parameter benötigt. Dieser Vorteil ist aber gleichzeitig ein Nachteil, denn bei allen Bemühungen um Parametrisierung sind diese Berichte relativ starr und die Wahrscheinlichkeit ist groß, daß der nächste Benutzer eine leicht veränderte Fragestellung hat, die dann nicht mehr mit den bestehenden Berichte zu lösen ist. Solche Berichte eignen sich demnach nur für Fragestellungen, die sich kaum verändern, aber häufig, z.B. wie eine monatliche Leistungsstatistik häufig gebraucht werden. Eine Liste von solchen Berichten (entsprechend Registerbezug in der Maske Dynamisches Modul) findet sich hier.

Das zweite Vorgehen hat zunächst den Nachteil, daß nach der Zusammenführung von Daten diese auch analysiert werden müssen. Hierzu muß der Benutzer meist weitere Programme wie Tabellenkalkulations-Programme (z.B. MS-Excel) oder Statistikprogramme (wie z.B. SPSS) einsetzen. Dafür können Auswertungen sehr leicht, d.h. ohne zentrale Programmierung durchgeführt werden. Diese Tabellen werden "Auswertungstabellen" genannt.

Für beide Verfahren ist ein grundsätzliches Verständnis erforderlich. Beim ersten Verfahren sollte sich der Benutzer informieren, was ein fertiger Bericht tatsächlich zählt, um die Ergebnisse richtig interpretieren zu können. Es gibt eine Vielzahl von Berichten, angesichts derer auch die Entwickler häufig im Quelltext nachsehen müssen, um adäquat Auskunft geben zu können.

Auch für die Anwendung von Auswertungstabellen muß der Benutzer wissen, welche Idee hinter der jeweiligen Tabelle und ihren Spalten steckt, um sie korrekt anzuwenden zu können. Dies soll an folgendem Beispiel erläutert werden:

Hinter der Tabelle AUSWERTUNG steckt die Idee, daß jeder Datensatz genau einen Tumor repräsentiert. Die Tabelle enthält auch einige Detailaussagen über die Therapie. Da aber bei einem Tumor jedoch häufig mehrere Therapien, beispielsweise mehrere Operationen, durchgeführt werden, können bestimmte Details nur von der ersten Therapie, also in diesem Fall der ersten Operation einbezogen werden, auch wenn die vielleicht wichtigere Operation erst im zweiten Schritt erfolgt ist. Es wäre also falsch, sich für die Analyse, welche operative Therapie erfolgt ist, nur auf diese Information zu stützen.

Praktisches Vorgehen

Eine Auswertung besteht in der Regel aus folgenden Schritten:

Schritt 0: Prüfen der Voraussetzungen. Ist zu erwarten, daß die Daten vollzählig sind? Insbesondere, wenn es um medizinische Fragestellungen und möglicherweise Schlußfolgerungen geht, kann es aus statistischen Gründen nicht akzeptiert werden, daß Datensätze nicht berücksichtigt werden, z.B. daß schlecht verlaufende Fälle bei einer Therapie-Auswertung nicht berücksichtigt werden. Leider kann man das nur dann aus den Daten erkennen, wenn man schon Anhaltspunkte hat, daß es noch weitere Fälle gibt, zum Beispiel weil ein möglicher Fall begonnen wurde zu dokumentieren oder weil es aus anderen Quelle (Pathologiesystemen, Krankenhausverwaltungssystemen) Hinweise auf solche Fälle gibt.
Schritt 1: Auswahl der Grundgesamtheit.
- Hier erfolgt die erste Weichenstellung mit der Auswahl der geeigneten Auswertungstabelle , auf der die Zählungen basieren. (Technisch gesehen kann es sich dabei auch um Views handeln; da diese aber identisch behandelt werden, wird im folgenden vereinfachend nur von Tabellen gesprochen)
  - Soll die Auswertung an Tumorerkrankungen durchgeführt werden, d.h. z.B. wie wurde die Erkrankung in welchem Stadium mit welcher Therapie und welchem Erfolg behandelt? Dann ist die Tabelle "AUSWERTUNG" die geeignete Tabelle (oder AUSWERTUNG_MAMMA, falls es sich um Mamma-Karzinome handelt, ggf. auch TUMOR, falls die Auswertungstabellen nicht genutzt werden sollen). Im nächsten Schritt kann dann zum Beispiel gezählt werden, wiewiele dieser Tumoren im Stadium I waren oder wieviele mit Therapie XY behandelt wurden.
  - Sind Fälle anders definiert, z.B. sollen auch Rezidive als Fälle gezählt werden? Außer für Mamma-Karzinome (Tabelle AUSWERTUNG_MAMMA basierend auf Spezialdokumentation MAMMA_DIAG) existieren hier noch keine Werkzeuge.
  - Sollen Therapien die Grundlage der Zählung bilden, d.h. wie häufig und bei welchen Tumoren wurden bestimmte Therapien durchgeführt? Dann sind die speziellen Therapie-Auswertungstabellen wie AUSWERTUNG_OP, AUSWERTUNG_STRAHL oder AUSWERTUNG_INNERE geeignet. Im zweiten Schritt kann dann zum Beispiel gezählt werden, ob die Therapie bei Tumorentität X oder Tumorentität Y und in welchem Stadium sie durchgeführt wurde.
- Nach der Auswahl der Tabelle erfolgt die eigentliche Auswahl der Grundgesamtheit, indem Datensätze aus der entsprechenden Tabelle ausgewählt werden. Technisch gesehen handelt es sich hierbei um WHERE-Bedingungen von SQL Statements. Innerhalb von GTDS existieren jedoch Hilfsmittel, die den Umgang erleichtern, so daß dies auch für nicht SQL-Geübte möglich ist. Auch hier müssen zwei Fälle unterschieden werden:
  - Die Filterkriterien sind Spalten der entsprechenden Tabelle. Dieser Fall ist einfach zu handhaben und zu erlernen, z.B. können Brustkrebsfälle über die Spalte LOKALISATION mit "LIKE '50%'" gefiltert werden. Weitere häufige Filter sind Zeiträume, Diagnose- Aufnahme oder Behandlungsdatum in einem bestimmten Jahr.
  - Die Filterkriterien sind Spalten in einer anderen Tabelle. Diese Abfragen sind komplizierter zu handhaben. Ein typischer Fall ist, alle Fälle, die in einer bestimmten Studie sind, herauszufiltern. Die Studieninformation ist nicht Bestandteil der Auswertungstabelle. Hier werden in der Regel EXISTS-Unterabfragen eingesetzt: Existiert ein Datensatz in der Tabelle "Studienteilnahme" der zu diesem Patienten und zur gesuchten Studie gehört?
  Häufig werden auch Kombinationen von Bedingungen verlangt, die in der Regel über ein logisches UND (SQL: AND) verknüpft werden. Vorsicht ist geboten bei Kombinationen von logischem ODER "(SQL: OR). Zum einen müssen hier häufig Klammern gesetzt werden, um ODER und UND richtig zu verknüpfen. Zum anderen können sich unterschiedliche Grundgesamtheiten, die sich durch scheinbar ausschließende Kriterien unterscheiden, sich trotzdem überschneiden.
  
  Beispiel: Werden für die erste Grundgesamtheit Fälle herausgesucht, deren Diagnosedatum oder deren Aufnahmedatum im Jahr 2003 liegen und für die zweite Grundgesamtheit die, deren Diagnosedatum oder deren Aufnahmedatum im Jahr 2004 liegen, dann sind diejenigen Fälle, deren Diagnosedatum im Jahr 2003 liegt, das Aufnahemdatum jedoch in 2004, in beiden Grundgesamtheiten enthalten.
  
  Bei der Verknüpfung von Bedingungen ist es im allgemeinen ratsam, bei der späteren Darstellung anzugeben, wie sich die zunehmende Einschränkung auf die Zahlen auswirkt. Beispiel: Im Registerbestand sind derzeit 14678 Fälle. Von diesen wurden 3523 im Jahr 2003 aufgenommen. Davon sind 234 Mammakarzinome. Von diesen wurden 212 durch Abteilungen unseres Brustzentrums mitbehandelt.
Schritt 2: Durchführen der Zählungen. Hier geht es darum, bestimmte Eigenschaften der Grundgesamtheit zu untersuchen und zahlenmäßig anzugeben, beispielsweise, wie häufig sind Tumoren im Stadium I diagnostiziert worden. Auch hier müssen die gleichen Fälle unterschieden werden, wie im Schritt 1:
- Die auszuwertenden Informationen sind Spalten der entsprechenden Tabelle. Dann werden einfach die Inhalte der enstprechenden Spalte ausgezählt, also beispielsweise wie häufig Stadium I, Stadium II, usw. .
- Die auszuwertenden Informationen sind Spalten in einer anderen Tabelle. Beispielsweise könnte nach dem Wert eines bestimmten Tumormarkers gefragt werden, der in der Tabelle AUSWERTUNG normalerweise nicht enthalten ist. Zwar können auch hier manchmal EXISTS-Unterabfragen eingesetzt werden: Existiert ein Datensatz in der Tabelle "Tumormarker" (QUALITATIVER_BEFUND) der zu diesem Patienten und zum gesuchten Tumormarker gehört und in einen bestimmten Bereich fällt? Da die Zählungen jedoch meist nicht über Bedingungen erfolgen, sondern über das in den Ausgabespalten stehende Ergebnis, kann es erforderlich sein, zusätzliche Tabellen zusammenzuführen und zum Beispiel einen QUALITATIVER_BEFUND Datensatz an die Tabelle AUSWERTUNG anzuhängen. Dies erfordert allerdings zum einen weitreichendere SQL-Kenntnisse, zum anderen können Probleme auftreten, wenn mehr als ein Datensatz der anderen Tabelle zum Datensatz der Grundgesamtheit paßt.
Unter dem Aspekt, auch die Qualität der Daten zu kontrollieren, ist es in der Regel sinnvoll, nicht nur einen einzelnen Wert (z.B. "Stadium I") zu zählen, sondern eine Analyse aller auftretenden Werte und ihrer Häufigkeiten durchzuführen. Hierbei bekommt man einen Überblick über die Vollständigkeit der Daten: Wie häufig sind keine Werte vorhanden oder es ist ein unspezifischer Wert ("X", keine Angabe, unbekannt, ...) eingetragen? Sind unzulässige Werte eingetragen? Insbesondere wenn häufig Leerwerte oder "X"-Werte auftreten, sind Schlußfolgerungen aus den Daten nur begrenzt möglich. Zudem werden bei der Häufigkeitsanalyse aller Werte deutlich, welche Werte ggf. zusammengefaßt werden können. Angenommen, es würde nur abgefragt, ob die T-Kategorie = 1 ist. Eine Häufigkeitsanalyse würde hier aufdecken, daß einige Fälle auch "1a" oder "1b" enthalten, die dann zu "1" gezählt werden müssen.
Schritt 3: ggf. weitere Analyse, Präsentation und Kommentierung der Ergebnisse. Diese Schritte können im allgemeinen nicht mehr durch das Tumordokumentationssystem unterstützt werden. Er fällt auch meistens in die Zuständigkeit dessen, der die Daten angefordert hat,

Jeder, der an das Register mit einem Auswertungswunsch herantritt, muß also wenigstens sprachlich formulieren können, welche Datensätze (Fälle, Therapien) er analysiert haben möchte und welche Variablen von diesen Datensätzen interessieren.

Beispiel

Das eben gesagte soll nun an einem Beispiel nachvollzogen werden. Angenommen jemand möchte, aufgeschlüsselt nach pT, wissen, wie die operative Therapie bei Mammakarzinom bei allen von Abteilung 1 mitbehandelten und in den Jahren 2001-2003 behandelten Patienten erfolgte.

Beim Aufruf der Auswertungsmaske werden alle für den Benutzer zugreifbaren, ggf. auch nur die Patienten angezeigt, die von einer bestimmten Abteilung mitbehandelten Patienten angezeigt. Nur der Benutzer OPS$TUMSYS kann wirklich alle Fälle betrachten, alle anderen Benutzer , auch sogenannte Leitstellenbenutzer, bekommen maximal diejenigen zu sehen, die von Abteilungen mitbetreut werden, auf die sie als zugriffsberechtigt eingetragen sind. In diesem Fall muß also die gefragte Abteilung 1 für den Benutzer zugreifbar sein. Im ersten Schritt geht es darum, die Grundgesamtheit einzuschränken. Zunächst sollen alle Mammakarzinome herausgesucht werden. Der Einfachheit halber (ohne Rücksicht auf den histologischen Typ) sollen diese über die Lokalisation "50" bestimmt werden. Die Maske wird mit "F7" in den Abfragemodus versetzt und der Cursor wird in das Feld LOKALISATION gesetzt.

Im Abfragemodus können gewünschte Filter-Werte einfach in das betreffende Feld gesetzt werden. "50%" heißt, daß nach der 50 beliebig viele Zeichen folgen dürfen. In diesem Fall werden also sämtliche Lokalisationscodes der Mamma erfaßt. Mit "F8" wird die Abfrage ausgeführt:

Das Ergebnis ist an diesen Testdaten sehr übersichtlich. Drückt man statt "F8" die Tastenkombination "Umschalt-F2", bekommt man die Zahl der gefundenen Datensätze in der Statuszeile angezeigt. Für die weitere Einschränkunkung der Grundgesamtheit soll die Abfrage-Hilfsfunktion benutzt werden. Nach "Speichern" der Abfrage gelangt man in das entsprechende Fenster:

Wie man sieht, ist das Filtern nach Lokalisation bereits in die WHERE-Bedingung übernommen worden. Im unteren Teil der Masker ist in "weitere" bereits das Diagnosedatum ausgewählt und der gewünschte Zeitraum eingetragen worden. Mit Hinzufügen wird dieser Teil in die Bedingung übernommen. Das gleiche wird noch für die Abteilung 1 als betreuende Abteilung durchgeführt:

Um die Abfrage später wieder auswählen zu können, wurde sie gespeichert. Sie kann auch in eine Datei exportiert und in einem anderen System wieder eingelesen werden. Auf diese Weise haben die Entwickler die Möglichkeit, kompliziertere Abfragen zu verteilen.

Der zweite Schritt umfaßt nun die Auszählung der gefragten Variablen. Eine erste Übersicht gibt die sogenannte "Standard-Auswertung" mit Angabe von Altersverteilung, Verteilung von Lokalisationen, Histologien, TNM-Kategorien und Stadien. Für die angebene Fragestellung ist dies jedoch nicht ausreichend, da auch Angaben zur operativen Therapie erwartet werden. Es bestehen jetzt folgende Optionen:

Weiterbearbeitung in SQL*Plus: Für etwas geübtere Nutzer können die Zählungen in SQL*Plus fortgesetzt werden, indem die Bedingung kopiert und zu einem oder mehreren vollständigen SELECT-Statements ergänzt werden. Zu beachten ist hierbei, daß als zusätzliche Bedingung immer noch die " AND Vorgang_ID = <Nummer des Auswertungslaufes>" angegeben werden muß. Falls eine andere, aus "Auswertung" abgeleitete Auswertungstabelle (Auswertung_SPSS, Auswertung_Mamma, ...) benutzt wird, müssen zudem Spaltennamen angepaßt werden (z.B. VORG_ID statt VORGANG_ID).
Weiterbearbeitung mit einem anderen Programm. Hier werden die Daten in eine Datei exportiert, die dann durch das betreffende Programm eingelesen werden. Ausführliche Analyseskripte wurden für das Statistikprogramm SPSS entwickelt. Ansonsten kommen auch Tabellenkalkulationsprogramme in Betracht.