Zur Notwendigkeit pluralistischer Evaluationsmodelle

Die Forschung zu Wirksamkeit und Sicherheit von Therapien verfügt heute über ein reichhaltiges Repertoire an Studienmethoden. Jede Methodik hat ihre eigenen Schwerpunkte, Vorteile und Nachteile. Im Zuge der Evidence-based Medicine (EbM)-Bewegung wird diese reichhaltige Forschungsmethodik hierarchisiert und der randomisierten Studie (RCT) der höchste Stellenwert zugeordnet. Andere Forschungsmethoden werden abqualifiziert und bei konkreten Therapiebewertungen in der Regel nicht berücksichtigt.

Die Evidence-based Medicine-Bewegung brachte zahlreiche Errungenschaften: Transparenz der klinischen Entscheidung, Befreiung von der „Tyrannei der Expertenmeinung“, kritisches Hinterfragen therapeutischer Routine, Zur-Verfügung-Stellen von Informationsquellen, Systematik zur Aufarbeitung von Fragestellungen, Ausbildung und fachliches Empowerment von Ärzten und Patienten. Die EBM-Strategie soll ermöglichen, die „best evidence available“ aufzufinden mit der impliziten Annahme, dass dadurch auch die „best therapy available“ aufgefunden wird. Das Problem besteht aber bei der a priori gesetzten Hierarchisierung von Evaluationsmethoden, in der die RCT dem Goldstandard entspricht.

In der klinischen Realität sind RCTs oft nicht durchführbar: Sie sind einseitig realisierbar, sind oft nicht praxisrelevant, können unzuverlässige Ergebnisse produzieren, verführen zur Instrumentalisierung durch Fachfremde und in der Gesundheitsversorgung zu Verzerrungen zugunsten gesundheitsfremder Interessen (Details siehe [1-3]).

Tabelle: Eingeschränkte Eignung von RCTs [1]

Tabelle als PDF-Download

Kommerzbasierte Medizin

RCTs sind sehr teuer, ihre Kosten bewegen sich in siebenstelligen und höheren Bereichen. [1-3] Wegen hoher Kosten bei zugleich geringer staatlicher bzw. gemeinnütziger Förderung wandert die klinische Forschung zunehmend in die Domäne der pharmazeutischen Industrie ab, wo sie jedoch primär Zulassungs- und Marketingsinteressen gehorcht. Die Folge ist, dass primär nur Therapien erforscht werden, die patentierbar und gewinnversprechend sind und großen Umsatz erwarten lassen. Therapien hingegen, die keine Aussicht auf breite Vermarktung und keine finanzstarke industrielle Rückendeckung haben, werden nur schlecht oder gar nicht überprüft, auch wenn sie erfolgsversprechend sind; dazu gehören Physiotherapien, Kreativtherapien, Psychotherapien, chirurgische Verfahren, Verhaltensänderungen, Therapien für Erkrankungen der dritten Welt („neglected diseases“), Behandlungen seltener Erkrankungen, Antidote gegen Vergiftungen, Impfstoffe, Therapien von Kindern und auch komplementärmedizinische Verfahren (wo viele nicht-pharmakologische Therapien eingesetzt werden und wo aufgrund der Systemlogik die pharmazeutischen Hersteller hunderte oder tausende Arzneispezialitäten vorhalten müssen).

Karriere-Bias

Ähnliche Auswirkungen hat der Karriere-Bias, auf den J. Kriz hinsichtlich des Begriffs der Wissenschaftlichkeit in der Psychotherapie verwies: „»Hunderte von Studien«, die oft als besonderes Qualitätsmerkmal propagiert werden, sprechen nicht unbedingt für die Brauchbarkeit von Therapiemethode X im Gesundheitssystem, sondern für die Brauchbarkeit dieser Methode im Rahmen universitärer Karrieremuster .... Es ist nicht so, dass die meisten Schulen auf den Nachweis der Psychotherapiewirksamkeit verzichtet haben .... Vielmehr ist es so, dass die meisten Wissenschaftler auf die Untersuchung der Psychotherapiewirksamkeit .... bei vielen Schulen verzichtet haben, deren theoretischen Konzepte nicht so gut in die »publish or perish«-Strukturen der Forscherkarrieren passten.“ [4] – Das heißt, dass primär diejenigen Therapien erforscht werden, die derzeit en vogue sind und damit Vorteile der persönlichen Karriere des jeweiligen Forschers bieten. Dies führt zu dem Trugbild, dass diese Therapien, da mehr erforscht, auch therapeutisch sinnvoller und besser seien.

Bevorzugung marginaler Effekte

Aufgrund ethischer Probleme können RCTs primär nur kleine Therapieeffekte untersuchen, da es sonst unethisch ist, der Kontrollgruppe die Therapie vorzuenthalten. Das führt z.B. dazu, dass es zur der als sehr effektiv angesehenen Impfung gegen Masern, Mumps und Röteln (MMR) praktisch keine Studien zur Wirksamkeit gibt [5], oder auch nicht zur Frage ob Krebs überhaupt „kurativ“ operiert werden sollte.

Verzerrung der großen Zahl

Unabhängig von statistischen Gründen („Power“) sollen RCTs möglichst groß sein, um die Zuverlässigkeit der Ergebnisse zu verbessern. Jedoch können, aufgrund notweniger Einschlusskriterien, meist nur eine strenge und sehr kleine Auswahl der Patienten in die Studien aufgenommen werden. Um dennoch genügend Patienten zu bekommen, werden RCTs hauptsächlich nur zu Massenerkrankungen durchgeführt, während zahllose Studien an der Patientenrekrutierung scheitern. So hätten in einer Machbarkeitsstudie der Universitäts-Frauenklinik Heidelberg zur Misteltherapie von den 1922 Patientinnen, die innerhalb von 28 Monaten mit Verdacht auf Mamma-Ca. operiert wurden, nur 29 (1,5%) der initial operierten (2% aller Frauen mit gesichertem Mamma-Ca.) in eine entsprechende Studie randomisiert werden können.[6]

Mit begrenzten Patientenzahlen kann nur eine begrenzte Anzahl von Therapien evaluiert werden. Große RCTs verdrängen RCTs zu anderen Therapien: „I know that several of the larger firms use overpowered trials as a way of keeping competitors out of that particular subject.“[7] Dieses Dilemma verhindert Studien oder führt zur Durchführung von RCTs in ärmeren Ländern und somit zu einer gesundheitswissenschaftlichen Neo-Kolonialisierung.

Praxisferne randomisierter Studien

Randomisierte Studien sind in der Regel praxisfern und nur wenig auf den therapeutischen Alltag zu übertragen. [1-3;8;9;9] Die Gründe sind vielfältig, z.B.:

  • RTCs haben meist nur kurze Beobachtungszeiten (z.B. beträgt die Beobachtungszeit der meisten Antidepressivastudien 6 Wochen), während die betreffenden Therapien, gerade bei chronischen Erkrankungen, oft jahrelang eingesetzt werden und positive und negative Langzeitwirkungen (z.B. Steroide bei Kindern) zentral für den Therapieentscheid sind.
  • In RCTs werden nur hochselektierte Patientengruppen aufgenommen, nicht aber der typische Patient, der in die Behandlung kommt und der später mit dem geprüften Medikament behandelt werden soll. So erfüllen beispielsweise nur 15% der ambulant behandelten Patienten mit Major Depression nach DSM-IV die Einschlusskriterien von 31 Antidepressiva-Studien aus fünf führenden Psychiatrie-Zeitschriften. [10]. Von diesen 15% der Patienten spricht wiederum nur ein Teil auf die antidepressive Behandlung an, so dass der Nachweis der Wirksamkeit der antidepressiven Behandlung in RCTs nur für einen Bruchteil der Patienten gilt.
  • In RCTs werden meist nur Patienten ohne bedeutsame Begleiterkrankung aufgenommen, in der Praxis müssen jedoch Patienten mit oft mehreren Begleiterkrankungen behandelt werden, wobei relevante Wechselwirkungen der jeweiligen Behandlungen auf die Zweit- und Dritterkrankungen zu erwarten sind.
  • RCTs werden primär im akademischen Setting durchgeführt, das jedoch nur weniger als 1% der zu behandelnden Patienten abdeckt. Zwar werden gelegentlich RCTs auch in Praxen der Allgemeinversorgung durchgeführt, jedoch differieren hier wiederum Diagnostik, Therapie und Studienoutcome bzw. konkretes Behandlungsziel; ferner werden RCTs meist Diagnose-spezifisch durchgeführt, während die Behandlung beim Primärarzt im allgemeinen Symptom-spezifisch erfolgt, wo eine je ausgiebige Diagnostik weder realistisch noch sinnvoll ist. [8]

Ein Resümee lautet deshalb: „30 years later, Cochrane‘s approach clearly enhanced the number of published papers, but it has rather limited effect on clinical practice and policies - even when applying the most sophisticated electronic techniques.“[8]

Divergente Ergebnisse

Die Diskussion um Sinn oder Unsinn des Mammographiescreening zeigt beispielhaft, dass verschiedene professionelle Evidenz-basierte Auswertungen identischer klinischer Studien zu verschiedenen Schlussfolgerungen und sogar zu entgegengesetzten Therapieempfehlungen kommen können. [11] Auch andere Beispiele zeigen, dass verschiedene professionelle Meta-Auswertungen derselben Studien zu völlig unterschiedliche Gesamtaussagen ergeben können: wirksam vs. unwirksam. (z.B. [12])

Aus der Divergenz ärztlicher Beurteilungen erfolgt ursprünglich die Forderung nach kontrollierten klinischen Studien. RCT-Ergebnisse sind aber ebenfalls oft divergent [13], weswegen systematische Reviews (Metaanalysen) von RCTs durchgeführt werden. Nun erweisen sich aber auch die Ergebnisse der systematischen Reviews von RCTs als divergent. Die Gründe sind, dass sowohl RCTs als auch systematische Reviews aufwendig, störanfällig und schwierig durchzuführen und zu beurteilen sind. Ob größere Formalisierung und Dimensionierung der Studien das Problem überwinden können, ist fraglich.

Asymmetrische Beweiskraft

Während ein positives RCT-Ergebnis im Prinzip (bei optimaler Durchführung) eine Beweiskraft hat, gilt dies nicht für ein negatives RCT-Ergebnis. Dies ist kein valider Nachweis der Unwirksamkeit. („The major weakness of the randomized trial is the difficulty for protection against false negativity.“ [14]) – Diese grundsätzliche RCT-Asymmetrie ist in der heutigen Methodendiskussion weitgehend unbeachtet („Orthodoxy always invokes the danger of Type One errors to ensure the occurence of Type Two errors.“ [15]), auch wenn Praktiker immer wieder darauf hinweisen (z.B. [12]). Eine Vielzahl an Fehlermöglichkeiten können falsch-negative Ergebnisse in RCTs provozieren, wie sich aus detaillierterer Analyse konkreter RCTs leicht zeigt: darunter fallen kompensatorische Zusatzbehandlung in der durch die Studienmedikation unterbehandelten Kontrollgruppe, suboptimale Wahl von Patienten, Ärzten, Therapiemodalitäten, Beobachtungszeiträumen, Erhebungsinstrumenten, etc.; ebenfalls kann das Ergebnis fälschlich nivelliert werden durch Gefälligkeitsauskünfte, mangelnde Differenzierungskraft der Erhebungsbögen, Gruppenangleichung, kognitive Interaktionen, Konditionierungseffekte, simplifizierende Studiendesigns, Intention-to-treat Analyse, u.a.m. (weiteres z.B. in [16-18]). Während die formale Struktur einer perfekt durchgeführten RCT ein Schutz gegen falsch positive Ergebnisse ist, gibt es in der RCT keinen Formalismus zur Identifizierung von Falsch-negativ-Bias. Deshalb ist prinzipiell keine wirksame Therapie davor gefeit, infolge von formal perfekten, aber inhaltlich unachtsamen Studien als unwirksam geprüft zu werden und so aus der Patientenbehandlung zu verschwinden. [16;17]

Ethische Probleme der randomisierten Therapiezuweisung

Eine RCT darf nur durchgeführt werden, wenn „equipoise“ besteht, d.h. wenn keine ausreichenden Gründe für die Überlegenheit der Prüftherapie sprechen. Diese ethische Voraussetzung des „equipoise“ scheint aber bei RCTs im Allgemeinen nicht gegeben: So zeigte eine Übersichtsarbeit zu 945 publizierten und nicht-publizierten Studien, dass die Prüftherapie in 47,3% statistisch signifikant überlegen war, die Kontrolltherapie jedoch nur in 3,7%. [19] Ähnliche Ergebnisse zeigen auch andere Übersichten.[16] Das heißt: Es werden Patienten in Kontrollgruppen von RCTs mehrheitlich benachteiligt. Die Konsequenz ist, dass ein individualethisch orientierter Arzt streng genommen seine Patienten nicht in Kontrollgruppen von RCTs einbringen dürfte.

Therapiepräferenz

Eine entschiedene Präferenz bei Patienten und Ärzten pro oder kontra einer der Therapien verhindert oder erschwert die Teilnehme an RCTs. Klassische Beispiele sind Hausgeburt versus Klinikgeburt oder operative Entfernung einer lokal begrenzten Krebserkrankung (ja oder nein). In einer prospektiven Studie zu akuten Ohr- und Atemwegsinfektionen (anthroposophische vs. schulmedizinische Behandlung) wurden die Patienten befragt, ob sie zum Zwecke einer wissenschaftlichen Untersuchung einer randomisierten Therapiezuteilung zustimmen würden: 35% der schulmedizinischen, aber nur 3,2% der anthroposophischen Behandlungsgruppe waren zur Randomisation bereit [20]. Unter solchen Bedingungen sind RCTs schwerlich realisierbar. In manchen Ländern wird das Präferenzproblem dadurch umgangen, indem Patienten die Therapie außerhalb der Studien vorenthalten oder ihre Verfügbarkeit verheimlicht wird und sie so bei Therapiewunsch, insbesondere bei lebensbedrohlichen Erkrankungen, zur Studienteilnahme genötigt werden; dies ist jedoch ethisch problematisch. [21]

Valide Möglichkeiten ärztlicher Erfahrung – Wirksamkeitsbeurteilung am Einzelfall

Gegenwärtig wird die Auffassung vertreten, dass das ärztliche Urteil grundsätzlich unzuverlässig sei, und dass deshalb die Wirksamkeitsbeurteilung grundsätzlich nur in klinischen Studien – experimentelle Anordnung, Vergleich großer Kohorten, randomisierte Zuteilung, schließende Statistik – möglich sei. Diese Auffassung lässt sich zurückführen auf bestimmte erkenntnistheoretische Prämissen der letzten 400 Jahren [16]. Die Allgemeingültigkeit dieser Prämissen wurde jedoch widerlegt, insbesondere durch die Gestalttheorie (z.B. [22]). Ausgehend von diesen gestalttheoretischen Erkenntnisprinzipien wurden nun auch in der Medizin die Kriterien der validen therapeutischen Erkenntnis im ärztlichen Urteil systematisch untersucht – anhand konkreter Einzelfall- und Fallserienbeschreibungen in medizinischen Fachzeitschriften (z.B. The Lancet), medizinischen Lehrbüchern und Interviews mit praktizierenden Ärzten (v.a. Gynäkologen, Orthopäden, Internisten, Allgemeinmedizinern). (Details s. [16;23]). Es zeigt sich, dass eine valide Erkenntnis der Wirksamkeit im individuellen, kontrolliert reflektierten ärztlichen Urteil durchaus möglich sein kann. Zu allgemeinen Kriterien der Wirksamkeitsbeurteilung am Einzelfall und in Fallserien sowie zu Beispielen aus der medizinischen Literatur siehe z.B. [16;18;23;24]. Davon ausgehend wurde ein neues System der klinischen Forschung entwickelt – genannt Cognition-based Medicine – das methodisch das ärztliche Urteil auf hohem wissenschaftlichen Niveau entwickelt und auswertet[16] (im Gegensatz zur konventionellen Studienmethodologie, die das ärztliche Urteil ausschaltet: „guard against any use of judgement“ [25]).

Ausblick

Unter Idealbedingungen ist die RCT ein perfekt zuverlässiges Evaluationsmodell. Unter Realbedingungen jedoch ist die RCT zwar manchmal die Methode der Wahl, oft aber ist sie ungeeignet, unethisch, nicht realisierbar, nicht relevant oder führt zu unzuverlässigen Ergebnissen. Um den realen Gegebenheiten der medizinischen Versorgung gerecht zu werden, um Verzerrungen, Fremdbestimmung, um ethische und strukturelle Probleme gering zu halten, um den Fortschritt der Medizin nicht unnötig zu erschweren [2;7], sollten pluralistische Evaluationsmodelle zum Einsatz kommen [1;23], die alle einer kritischen, jeweils spezifisch angepassten Qualitätsbeurteilung unterzogen werden sollten und die medizinische und praxisrelevante Gesichtspunkte mitumfassen. [1;23]

Dr. med. Gunver S. Kienle
Letzte Aktualisierung:
März 2009

Literaturverzeichnis



[1] Kienle, G. S., Gibt es Gründe für Pluralistische Evaluationsmodelle?
Limitationen der Randomisierten Klinischen Studie. Z ärztl Fortbild Qual Gesundh wes 99, 289-294 (2005). Download als pdf-Datei

[2] Kienle, G. S., M. Karutz, H. Matthes, P. F. Matthiessen, P. Petersen and H. Kiene, Evidenzbasierte Medizin: Konkurs der ärztlichen Urteilskraft? Dt Ärztebl 100, C1688-C1692 (2003). Download als pdf-Datei
www.aerzteblatt.de/v4/archiv/artikel.asp?id=38060

[3] Kienle GS, Kiene H, Albonico HU. Anthroposophische Medizin in der klinischen Forschung. Wirksamkeit, Nutzen, Wirtschaftlichkeit, Sicherheit. Stuttgart, New York: Schattauer Verlag, 2006.

[4] Kriz J. Gutachten über den Begriff der Wissenschaftlichkeit in der Psychotherapie. Zeitschrift des Schweizerischen Berufsverbandes für angewandte Psychologie, SBAP 2003.

[5] Demicheli V, Jefferson T, Rivetti A, Price D. Vaccines for measles, mumps and rubella in children (Cochrane Review). The Cochrane Library 2006;(2).

[6] Gerhard I, Abel U, Loewe-Mesch A, Huppmann S, Kuehn JJ. Problematik randomisierter Studien in der Komplementärmedizin dargestellt am Beispiel der Misteltherapie bei Patientinnen mit Mammakarzinom. Forsch Komplementärmed 2004; 11:150-7.

[7] Horrobin DF. Are large clinical trials in rapidly lethal diseases usually unethical? Lancet 2003; 361:695-7.

[8] De Maeseneer JM, van Driel ML, Green LA, van Weel C. The need for research in primary care. Lancet 2003; 362:1314-9.

[9] Rothwell PM. External validity of randomised controlled trials: "To whom do the results of this trials apply?". Lancet 2005; 365:82-93.

[10] Zimmerman M, Mattia JI, Posternak MA. Are subjects in pharmacological treatment trials of depression representative of patients in routine clinical practice? Am J Psychiatry 2002; 159(3):469-73.

[11] The mammography debate: A crisis for Evidence Based Medicine? In: 4. Symposion Evidenzbasierte Medizin. 14. - 15. März 2003, Freiburg i.Br.: 2003.

[12] Hopayian K. The need for caution in interpreting high quality systematic reviews. Br Med J 2001; 323:681-4.

[13] Horwitz RI. Complexity and contradiction in clinical trial research. Am J Med 1987; 82:498-510.

[14] Freireich EJ. The randomized clinical trial is not the best and certainly not the only way to conduct clinical research. Advances: The Journal of Mind-Body Health 1997; 13(2):41-4.

[15] Eysenck HJ. Prediction of cancer and coronary heart disease mortality by means of a personality inventory: results of a 15-year follow-up study. Psychol Rep 1993; 72:499-516.

[16] Kiene H. Komplementäre Methodenlehre der klinischen Forschung. Cognition-based Medicine. Berlin - Heidelberg - New York: Springer-Verlag, 2001.

[17] Kiene H. Kritik der klinischen Doppelblindstudie. München: MMV Medizin Verlag, 1993.

[18] Kienle GS, Kiene H. Die Mistel in der Onkologie - Fakten und konzeptionelle Grundlagen. Stuttgart: Schattauer Verlag, 2003.

[19] Dickersin K, Chan S, Chalmers TC, Sacks HS, Smith H. Publication bias and clinical trials. Controlled Clin Trials 1987; 8(4):343-53.

[20] Hamre HJ, Fischer M, Heger M, Riley D, Haidvogl M, Baars E et al. Anthroposophic vs. Conventional Therapy of Acute Respiratory & Ear Infections: A Prospective Outcomes Study. Wien Klin Wochenschr 2005; 117(7-8):258-68.

[21] Menikoff J. The hidden alternative: getting investigational treatments off-study. Lancet 2003; 361:63-7.

[22] Duncker K. Zur Psychologie des produktiven Denkens [Erstausgabe 1935]. 2 ed. Berlin: Springer Verlag, 1963.

[23] Kiene, H., Was ist Cognition-based Medicine? Z ärztl Fortbild Qual Gesundh wes 99, 301-306 (2005). Download als pdf-Datei

[24] Kienle GS, Kiene H. Die Coley’sche Fiebertherapie der Krebserkrankung – Historischer Markstein oder heute noch Vorbild? Ein Beispiel für Cognition-based Medicine. Der Merkurstab 2003; 56(6):355-64.

[25] Pocock SJ. Clinical trials. A practical approach. 10 ed. Chichester - New York - Brisbane - Toronto - Singapore: John Wiley & Sons, 1991.