%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%                                                                         %%%
%%%   Datei   " hypotes.tex "                                               %%%
%%%                                                                         %%%
%%%   Das Format entspricht der internationalen Norm 21.0 cm x 29.7 cm      %%%
%%%   Falls Sie ein anderes Format wuenschen, aendern Sie bitte die         %%%
%%%   entsprechenden Kommandos im Kopf des Dokumentes                       %%%
%%%                                                                         %%%
%%%   Transformieren Sie das Dokument mit "latex ....."                     %%%
%%%   Die Warnungen "Overfull \hbox" brauchen Sie nicht zu beachten         %%%
%%%                                                                         %%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\documentstyle[12pt]{article}
\parskip1ex plus0.5ex minus0.2ex
\textwidth15.5cm    \textheight23cm
\oddsidemargin0mm   \evensidemargin-4.5mm   \topmargin-10mm
\begin{document}


\begin{tabular}{|c|}
\hline
    \\
    {\bf \hspace*{5mm}
    \"Ubersetzung des Artikels}
    \\
     {\bf Pri la testado de statistikaj hipotezaroj}
    \\
     erschienen in
    \\
    {\bf \large \hspace*{5mm}
    Acta Sanmarinensia  2.5/1992
    } \\
    \hspace*{5mm}{\bf
    ISBN 83-85033-07-1
    } \\[4mm]
    \hspace*{5mm}{\bf
    Ver\"offentlicht im WWW unter der URL:} \\
    {\bf
    http://www.forst.uni-muenchen.de/publ/quednau/hipotez.html
    } \\[4mm]
    \hspace*{5mm}
%   {\bf De tiu-\^ci publika\^{\j}o estas haveblaj traduka\^{\j}oj en la lingvoj :
%   \hspace*{5mm} }\\
%   \hspace*{3cm}{\bf
%   germana
%   } \\
      \\
      \hline
      \end{tabular}
      \\[5mm]

      \begin{center}
      {\bf \large
       Das Testen statistischer Hypothesenfamilien
       }

       de H. D. Quednau, M\"unchen (D)\\
       ( Vorlesung anl\"a\ss ich der SUS 5 in San Marino, August 1988 )
       \end{center}

{\bf Zusammenfassung} \\
       \ \ \
An einem praktischen Beispiel wird dargestellt, warum multiple
Test\-verfahren not\-wendig sind, und es werden die ein\-fachsten und
grund\-legenden dieser Ver\-fahren vor\-gestellt, n\"amlich das einfache
Bon\-ferroni- und das Bonferroni-Holm-Ver\-fahren. Es wird gezeigt, wie
sich die Bonferroni-Holm-Prozedur bei gegen\-seitiger Ab\-h\"an\-gig\-keit
der Test\-hypo\-thesen durch ein von {\sc Shaffer} (1986) vor\-ge\-schla\-genes
Verfahren ver\-bessern l\"a\ss t, und wie die Verfahren zu
modi\-fi\-zieren sind, wenn eine der Test\-hypo\-thesen eine
Global\-hypo\-these ist.

\

In den Kursen der Angewandten Statistik, die in einer wachsenden Anzahl von
Studieng\"angen     verpflichtend    werden,    wird i.a. die Vorgehensweise der
schlie\ss enden Statistik folgenderma\ss en dargestellt: W\"ahrend einer
wissenschaftlichen Untersuchung m\"ochte man eine Vermutung, die man \"uber
irgend einen Tatbestand hat, auf seine Richtigkeit \"uberpr\"ufen.  Diese Vermutung transformiert
man in ein Paar statistischer Hypothesen: Die Testhypothese $H_0$, die man widerlegen
m\"ochte, und die Alternativhypothese $H_1$, die man annehmen wird, wenn man
$H_0$ tats\"achlich ablehnen kann. Man definiert die Grundgesamtheit, f\"ur die
das Ergebnis gelten soll, und w\"ahlt den Test f\"ur $H_0$. Aus der Grundgesamtheit
nimmt man eine repr\"asentative Zufallsstichprobe, aus ihr gewinnt man durch
Z\"ahlen oder Messen Zahlen, die man in eine Beobachtungsmatrix eintr\"agt.  Aus
dieser Beobachtungsmatrix berechnet man eine Teststatistik und aus der
Teststatistik die \"Uberschreitungswahrscheinlichkeit f\"ur das betreffende
$H_0$-$H_1$-Paar. Falls die \"Uberschreitungswahrscheinlichkeit kleiner ist als der
kritische Wert (der meistens gleich 0.05 ist), so bedeutet das, da\ss \  man
$H_0$ ablehnen mu\ss . Diese Vorgehensweise stellt sicher, da\ss \ die Irrtumswahrscheinlichkeit
erster Art auf jeden Fall kleiner gleich $\alpha$ ist, mit anderen Worten :
Falls $H_0$ richtig ist, dann ist die Gefahr, sie trotzdem irrt\"umlich abzulehnen,
kleiner gleich $\alpha$.

Zur Illustration ein kleines Beispiel: Ein Pflanzenz\"uchter hat eine neue
Weizensorte gez\"uchtet, und er will nachweisen, da\ss \  sie besser ist als eine
andere Sorte, die bisher in Gebrauch war. Er entschlie\ss t sich, die ``G\"ute''
durch das \"Ahrengewicht zu messen. Da ein statistischer Test nicht einen
unendlich kleinen Unterschied nachweisen kann, definiert er eine kritische
Differenz d und formuliert das Hypothesenpaar:
\[
%%% H_0 : \mu_{\mbox{nov}} - \mu_{\mbox{kut}} \le d \quad ; \quad
H_0 : \mu_{neu} - \mu_{alt} \le d \quad ; \quad
H_1 : \mu_{neu} - \mu_{alt} >   d \quad ;
\]
wobei $\mu_{\mbox{[neu,alt]}}$
der Erwartungswert des \"Ahrengewichts der neuen bzw. der alten
Sorte ist. Die Grundgesamtheit ist hypothetisch, sie ist gleich der unendlichen Menge
aller denkbaren Weizen\-pflanzen, die zu einer der beiden untersuchten Sorten geh\"oren
und unter den gegebenen Versuchsbedingungen aufgezogen
werden. Die Testhypothese m\"ochte man mit dem t-Test pr\"ufen.  Man macht ein
Experiment, in dem man Weizen\-pflanzen in einem vollst\"andig randomisierten Versuchsplan
aufzieht, und nimmt diese Pflanzen als Stichprobe. Deren
\"Ahrengewicht tr\"agt man in die Beobachtungsmatrix ein, aus der man die Teststatistik
T berechnet. Falls $H_0$ wahr ist, dann gilt:
\mbox{
$T \sim t(n_{neu} - n_{alt} - 2)$.
}
Da es sich in
unserem Fall um einen einseitigen Test handelt, dessen Ablehnungsbereich aus
dem oberen Bereich der Zahlengerade besteht, gilt f\"ur die
\"Uberschreitungswahrscheinlichkeit
\[
p = 1 - \int_{- \infty}^T
 DF \: [t \, (n_{neu} + n_{alt} - 2)]
  \; (\phi) \; d\phi \:,
  \]
mit $DF \: [t(n)]$ (Dichtefunktion der t-Verteilung mit $n$ Freiheitsgraden)

Bei diesem einfachen Beispiel entspricht die Vorgehensweise genau der
elementaren, bekannten statistischen Methodik.  Leider ist die Situation in der
Praxis jedoch komplizierter.  Meistens hat man nicht EINE Vermutung, die sich
durch EINEN Test untersuchen l\"a\ss t, der wiederum EINE
\"Uberschreitungswahrscheinlichkeit liefert und somit eine Aussage mit genau bekannter
Irrtumswahrscheinlichkeit erster Art erm\"oglicht.  Zum Beispiel interessiert sich der
eben erw\"ahnte Pflanzenz\"uchter nicht nur f\"ur das \"Ahrengewicht, sondern gleichzeitig
auch f\"ur den Geschmack, die Back- und Mahlf\"ahig\-keit, die Widerstandsf\"ahigkeit
gegen Viren, Pilze und Insekten usw. Er hat also eine ganze {\bf Familie} von
Vermutungen,  die er in eine Hypothesenfamilie $H_0^1$ bis $H_0^k$ transformiert. Die
einzelnen $H_0^j$ haben in diesem Fall eine \"ahnliche Form, n\"amlich:
\[
H_0^j \; : \; \mu_{neu,j} - \mu_{alt,j} \le d_j \quad ; \quad
H_1^j \; : \; \mu_{neu,j} - \mu_{alt,j} > d_j \quad ; \quad
j = 1,..,k
\]
Wir wollen annehmen, da\ss \  k = 5, und da\ss \  die 5 Tests die in Abb. 1 aufgef\"uhrten
Ergebnisse gebracht haben.


\vspace{2ex}
\begin{small}
\begin{tabular}{|c|c|c|c|c|c|}
\hline
\multicolumn{6}{|c|} {\ } \\
\multicolumn{6}{|c|}  {{\bf Abb. 1}} \\
\multicolumn{6}{|c|} {\ } \\
\hline
      &       & sign.    & Rang der & krit. Grenze  & sign. \\
Test  & p     & nach B.  & p-Werte  & nach B.H.     & nach B.H. \\
\hline
   1 & 0.011 &   &    (2)  &     0.0125  &      +  \\
   2 & 0.062 &   &    (5)  &     0.0500  &        \\
   3 & 0.015 &   &    (3)  &     0.0167  &      +  \\
   4 & 0.040 &   &    (4)  &     0.0250  &           \\
   5 & 0.002 & + &    (1)  &     0.0100  &      +   \\
\hline
\end{tabular}
\end{small}
\vspace{2ex}

Wenn man diese Testergebnisse transformieren w\"urde in die Aussage
``Die neue Sorte ist der alten mindestens in den Eigenschaften 1,3,4 und 5
um die jeweiligen kritischen Differenzen \"uberlegen, dann h\"atte diese
Aussage nicht die geforderte Irrtums\-wahrscheinlichkeit von $\alpha$ = 0.05,
sondern eine gr\"o\ss ere.
Die bekannte Regel ``Lehne $H_0$ ab, wenn die \"Uberschreitungswahrscheinlichkeit
kleiner gleich $\alpha$ ist'', gilt nur, wenn sie auf einen einzigen Test angewandt
wird.  Wenn man sie unkritisch auf eine ganze Schar von vielleicht vielen
Hypothesen anwendet, kann die Irrtumswahrscheinlichkeit leicht sogar 50 \%
\"uberschreiten! Man braucht also unbedingt ein Verfahren, das die
Irrtumswahrscheinlichkeit auch f\"ur solche Aussagen garantiert, die auf den
Ergebnissen mehrerer Tests beruhen. 
Ein solches Verfahren nennt man einen {\bf multiplen} Test.
Ein solcher multipler Test w\"ahlt aus einer Menge getesteter $H_0^j$
eine Untermenge von abzulehnenden Hypothesen aus, wobei er garantiert,
da\ss \ mit Wahrscheinlichkeit gr\"o\ss er gleich $1-\alpha$ 
{\bf keine} der abgelehnten $H_0^j$ wahr ist.  Mit anderen Worten:
Die Wahrscheinlichkeit daf\"ur, da\ss \ auch nur {\bf eine} der abgelehnten
Testhypothesen wahr ist, mu\ss  \ kleiner gleich $\alpha$ sein.
In diesem Fall sagt man, da\ss  \ der Test das multiple Niveau $\alpha$
h\"alt und nennt $\alpha$ die multiple Irrtumswahrscheinlichkeit.

In gr\"o\ss erem Stil besch\"aftigt man sich mit der Theorie des multiplen
Testens seit der grundlegenden Ver\"offentlichung von {\sc Gabriel} (1969).
Eine sehr klare \"Ubersicht \"uber die grundlegenden Konzepte gibt aus
mathematischer Sicht {\sc Sonnemann} (1981,1982).

Das bekannteste (oder vielleicht besser das am wenigsten unbekannte) und
gleich\-zeitig einfachste multiple Testverfahren ist die Bonferroni-Prozedur.
Sie basiert auf der folgenden, von {\sc Bonferroni} (1936) publizierten Ungleichung:
Es seien $B_i (i=1,..,k)$ Ereignisse, die mit den Wahrscheinlichkeiten $P(B_i)$
auftreten.  Dann gilt f\"ur die Ver\-einigung der $B_i$, (d.h.,
da\ss \ $B_1$ {\bf oder} .. {\bf oder} $B_k$ auftritt)
\[
P \; ( \bigcup_{j=1}^k \: B_j) \; \le \; \sum_{j=1}^k \: P(B_j)
\]
Diesen Satz k\"onnen wir anwenden, um ein multiples Testverfahren zu
konstruieren: Es sei $B_j$ das Ereignis: ``$H_0^j$ wird irrt\"umlich abgelehnt''.
Wenn wir auf $H_0^j$ einen Test mit der einfachen Irrtumswahrscheinlichkeit
$\alpha / k$ anwenden,
dann ist $P(B_j)$  entweder gleich $\alpha/k$ (n\"amlich dann,
wenn $H_0^j$ wahr ist) oder gleich 0 (falls $H_0^j$ falsch ist;
denn eine falsche Hypothese kann nicht {\bf irrt\"umlich} abgelehnt werden).
Also  ist $P(B_j)$ in jedem Fall kleiner gleich $\alpha/k$,
folglich ist die Summe der $P(B_j)$ kleiner gleich $\alpha$.

Aus dieser \"Uberlegung l\"a\ss t sich ableiten, wie man ein Testverfahren
konstruieren kann, das die multiple Irrtwnswahrscheinlichkeit $\alpha$ garantiert:
Man lehnt diejenigen Testhypothesen ab, die eine
\"Uberschreitungswahrscheinlichkeit von weniger als $\alpha/k$ liefern.

Wir wollen dieses Verfahren nun auf die in Abb. 1 aufgef\"uhrten
Testergebnisse anwenden, wobei wir wie gew\"ohnlich $\alpha$ = 0.05 setzen.
Wir lehnen diejenigen Testhypothesen ab, deren 
\"Uberschreitungswahrscheinlichkeiten kleiner
gleich 0.05/5=0.01 sind.  Bei unserem Beispiel k\"onnen wir nur die 5. Hypothese
ablehnen (siehe Spalte ``signifikant nach B(onferroni)'').

Wenn wir das Bonferroni-Verfahren anwenden, wissen wir, da\ss  \ die
multiple Irrtums\-wahrscheinlichkeit kontrolliert bleibt.
Trotzdem hat die Methode einen gravierenden Nachteil:
Sie ist verh\"altnism\"a\ss ig unscharf.  Das bedeutet, da\ss \ sie
auch {\bf falsche} Testhypothesen nicht mit einer gen\"ugend hohen Wahrscheinlichkeit
ablehnt.  Deshalb hat man nach Verbesserungen des Verfahrens gesucht, um
falsche   Hypothesen mit gr\"o\ss erer Wahrscheinlichkeit auch als falsch zu
erkennen, ohne dabei die Kontrolle \"uber die multiple Irrtumswahrscheinlichkeit
erster Art zu verlieren.

In den Jahren 1977 und 1979 ver\"offentlichte der skandinavische Statistiker
{\sc Holm} eine solche Verbesserung des Bonferroni-Verfahrens, die man heute i.a.
{\bf Bonferroni-Holm-Verfahren} nennt. Die Vorgehensweise ist die folgende: Man
ordnet die Testhypothesen nach ihren \"Uberschreitungswahrscheinlichkeiten $p$.
\ In unserem Beispiel \ \ (Abb.~1) ist $H_0^5$ diejenige mit dem kleinsten $p$.
Dieses kleinste $p$ vergleicht man mit $\alpha/k$, also mit 0.01. Wenn
$p_5$ gr\"o\ss er als 0.01 w\"are, m\"u\ss ten wir das Verfahren beenden
und d\"urften keine Testhypothese ablehnen.
Da aber in diesem Fall $p_5 < 0.01$, lehnen wir die entsprechende Hypothese ab
und fahren mit dem Verfahren fort.  Wir vergleichen nun das zweitkleinste
$p$  (das ist $p_1$) mit $\alpha/(k-1)$, also mit 0.0125.
Da $p_1 < 0.0125$, d\"urfen wir auch $H_0^1$ verwerfen und weitertesten.
Das drittkleinste $p$, also $p_3$,
ver\-glei\-chen  wir mit $\alpha/(k-2)=0.0167$ und k\"onnen auch $H_0^3$  ablehnen.
Dann vergleichen wir $p_4$ mit $\alpha/(k-3)=0.025$, und diesmal stellen wir
fest, da\ss  \ dieses $p$ zu gro\ss \ ist.  Folglich beenden wir das Verfahren
hier.  Das Endergebnis des Bonferroni-Holm-Verfahrens lautet:
Die Testhypothesen $H_0^1$, $H_0^3$ und $H_0^5$ sind
falsch.  Das bedeutet, da\ss  \ die neue Weizensorte der alten mindestens in den
Eigenschaften 1, 3 und 5 \"uberlegen ist.  Verglichen mit dem einfachen
Bonferroni-Verfahren haben wir also zwei weitere Unterschiede statistisch
abgesichert. \"Uber die Eigenschaften 2 und 4 (!) k\"onnen wir keine Aussage machen.

Wenn man, wie bei dem gerade besprochenen Beispiel, mehrere unterschiedliche
Eigenschaften bei zwei Pflanzensorten vergleicht, dann sind die entsprechenden
Testhypothesen logisch unabh\"angig.  Das bedeutet, da\ss  \ es von jeder
m\"oglichen Kombination dieser Hypothesen denkbar ist, da\ss  \ genau sie richtig
und die anderen falsch sind.  Bei andersartigen Testfamilien ist es jedoch oft
so, da\ss  \ daraus, da\ss  \ eine bestimmte Hypothese falsch ist,
zwingend folgt, da\ss \  die
anderen nicht gleichzeitig wahr sein k\"onnen.  Betrachten wir z.B. folgendes
Beispiel: Man m\"ochte 4 Weizensorten bez\"uglich einer einzigen Eigenschaft
miteinander vergleichen. Zu diesem Zweck konstruiert man eine Hypothesenfamilie,
die aus $H_0^1$ bis $H_0^6$ besteht
(siehe Abb. 2, die dort definierte $H_0^g$ soll vorl\"aufig
nicht beachtet werden).

\vspace{2ex}
\begin{small}
\begin{tabular}{|c|c|c|c||c|c|c|}
\hline
\multicolumn{7}{|c|} {\ } \\
\multicolumn{7}{|c|}  {{\bf Abb.2}} \\
\multicolumn{7}{|c|} {\ } \\
\multicolumn{7}{|c|}  {Beispiel f\"ur das verbesserte Bonferroni-Holm-Verfahren} \\
\multicolumn{7}{|c|}  {Vergleich der Parameter aus 4 Stichproben} \\
\multicolumn{7}{|c|} {\ } \\
\multicolumn{7}{|l|} {
$H_0^g \; = \; \bigcap_{j=1}^k \, H_0^j \, : \, \mu_1=\mu_2=\mu_3=\mu_4$  } \\
\multicolumn{7}{|c|} {\ } \\
\hline
      &                   & p     &   &   &                          &     \\
\hline
$H_0^g$ &                 & 0.014 &   & G & p      $<$ 0.05          &  +  \\
$H_0^1$ & $\mu_1 = \mu_2$ & 0.022 &   &(4)& p      $>$ 0.05/3=0.0167 &  -  \\
$H_0^2$ & $\mu_1 = \mu_3$ & 0.042 &   &(5)&                          &     \\
$H_0^3$ & $\mu_1 = \mu_4$ & 0.013 &   &(3)& p      $<$ 0.05/3=0.0167 &  +  \\
$H_0^4$ & $\mu_2 = \mu_3$ & 0.151 &   &(6)&                          &     \\
$H_0^5$ & $\mu_2 = \mu_4$ & 0.001 & + &(1)& p      $<$ 0.05/3=0.0167 &  +  \\
$H_0^6$ & $\mu_3 = \mu_4$ & 0.009 & + &(2)& p      $<$ 0.05/3=0.0167 &  +  \\
\hline
\end{tabular}
\end{small}
\vspace{2ex}
		  

Wenn wie in diesem Fall $H_0^5$ falsch ist, dann ist es unm\"oglich,
da\ss \ $H_0^1$ und gleich\-zeitig $H_0^3$ (oder $H_0^4$ und gleich\-zeitig
$H_0^6$) wahr sind.
Bei solchen logisch nicht unabh\"angigen Hypothesen kann man das
Bonferroni-Holm-Verfahren mit einer
Methode verbessern, die von {\sc Shaffer} (1986) ver\"offentlicht wurde:
Zun\"achst vergleicht man wieder die klein\-ste \"Uberschreitungswahrscheinlichkeit 
mit $\alpha/k$. Falls dieses $p < \alpha/k$, lehnen wir die entsprechende
Testhypothese ab und vergleichen dann das zweitkleinste $p$ mit
$\alpha$ dividiert durch die Anzahl derjenigen Hypothesen, die h\"ochstens noch
wahr sein k\"onnen, wenn die abgelehnte Hypothese tats\"achlich falsch ist.
In unserem Fall k\"onnen h\"ochstens noch 3 andere Hypothesen gleichzeitig wahr
sein, falls $H_0^5$  falsch ist. Deshalb vergleicht man das zweitkleinste
$p$ mit $\alpha/3 = 0.0167$ und lehnt die entsprechende Hypothese ab.
Das folgende $p$ vergleicht man ebenfalls mit $\alpha/3$; denn auch wenn
$H_0^5$ und $H_0^6$ falsch sind, k\"onnen immer noch 3 der anderen Hypothesen
richtig sein. Bei dieser Vorgehensweise k\"onnen wir auch $H_0^3$ ablehnen.
Die folgende Hypothese kann allerdings nicht mehr abgelehnt werden.
Wir erhalten somit die zusammengesetzte Aussage: `` $\mu_4$ ist von allen
anderen $\mu$'s verschieden''. Es ist leicht zu sehen, da\ss \ 
wir bei Anwendung des Bonferroni-Holm-Verfahrens ohne die
Shaffer-Verbesserung nur $H_0^5$ und $H_0^6$ h\"atten ablehnen k\"onnen,
bei Anwendung des einfachen Bonferroni-Verfahrens sogar nur $H_0^5$.

Leider kann auch dieses Verfahren zu unbefriedigenden Ergebnissen f\"uhren.
Man mu\ss  \ ja jedesmal die kleinste \"Uberschreitungswahrscheinlichkeit mit
$\alpha$ dividiert durch Gesamtzahl der Hypothesen vergleichen und das Verfahren
sofort abbrechen, falls sie gr\"o\ss er ist.  Manchmal hat man es mit sehr
vielen Testhypothesen zu tun.  Vergleicht man z.B. Kennzahlen aus
10 Stichproben, so erh\"alt man 45 Testhypothesen.  Um eine multiple
Irrtumswahrscheinlichkeit von 5 \% zu garantieren, mu\ss \ man das kleinste
$p$ mit 0.0011 vergleichen.  Selbst wenn es in der Grundgesamtheit
betr\"achtliche Unterschiede geben sollte, ist nicht damit
zu rechnen, da\ss  \ die kleinste \"Uberschreitungswahrschein\-lich\-keit oft einen
so geringen Betrag hat.  Folglich bek\"ame man in diesem Fall von der multiplen
Testprozedur noch nicht einmal dasjenige Ergebnis, das man bei Anwendung der
einfachen  Varianzanalyse vermutlich bekommen w\"urde, n\"amlich da\ss \ es
Unterschiede zwischen den Kennzahlen gibt, wenn man auch nicht sagen kann,
zwi\-schen welchen von ihnen.

Gl\"ucklicherweise kann man die besprochenen Verfahren mit einem vorgesetzten
Test der {\bf globalen} Testhypothese kombinieren.  Diese globale Testhypothese
behauptet, da\ss \ es \"uberhaupt keine Unterschiede gibt.
In Abb. 2 ist sie unter dem Namen $H_0^g$ definiert.  Man k\"onnte sie z.B. mit
einer einfachen Varianzanalyse testen.  Falls in einer Hypothesenfamilie eine
solche globale Hypothese existiert, kann man zun\"achst deren
\"Uberschreitungswahrscheinlichkeit mit dem vollen $\alpha$ vergleichen.
Falls dieser Test nicht signifikant w\"are, m\"u\ss ten wir das
Verfahren schon hier beenden.  In unserem Fall liefert der globale Test jedoch
ein signifikantes Ergebnis; wir verwerfen also die globale Hypothese und
fahren fort.  Jetzt vergleichen wir die kleinste
\"Uberschreitungswahrschein\-lichkeit mit $\alpha/3$; denn nach der Ablehnung der
globalen Hypothese k\"onnen
h\"ochstens noch 3 der anderen Hypothesen gleichzeitig wahr sein.  Bei diesem
Beispiel erhalten wir schlie\ss lich das gleiche Ergebnis wie vorher, aber oft
erweist sich dieser kombinierte Test als trennsch\"arfer (d.h. er liefert
h\"aufiger ein signifikantes Ergebnis) als der einfache Test ohne diese
Kombination.

Im Fall des Vergleichs von {\bf drei} Stichproben erhalten wir das interessante
Ergebnis, da\ss \ wir, nachdem die Globalhypothese abgelehnt ist. jeden der 3
einfachen Vergleiche mit der vollen Irrtumswahrscheinlichkeit $\alpha$
durchfuhren k\"onnen; denn falls $H_0^g$ falsch ist, dann kann h\"ochstens noch
eine einzige der einfachen Hypothesen wahr sein (und wir vergleichen ihre
\"Uberschreitungswahrscheinlichkeiten folglich mit $\alpha/1 = \alpha$).

Die Testprozeduren, die ich hier besprochen habe, habe ich am Beispiel von
Hypothesen \"uber die Gleichheit von Parametern erl\"autert und auch erw\"ahnt,
da\ss \ man die Globalhypothese mit einer Varianzanalyse und die einfachen
Hypothesen mit t-Tests testen kann.  Ich m\"ochte aber sehr deutlich
unterstreichen, da\ss \ die hier erw\"ahnten Testverfahren absolut nicht auf
diesen Fall beschr\"ankt sind.
Man kann sie bei beliebigen Hypothesenfamilien verwenden, die sich auf
beliebige statistische Modelle beziehen und mit einem beliebigen Test getestet
worden sind, sei es der Test von Wilcoxon, Kolgomoroff-Smirnoff oder irgend
ein anderer. Daneben gibt es auch multiple Testverfahren, die auf ganz
bestimmte Modelle zugeschnitten sind; auf sie m\"ochte ich aber hier nicht
eingehen.

Schlie\ss lich m\"ochte ich noch darauf eingehen, in welcher Form die
m\"oglichen Ergebnisse multipler Testverfahren vorliegen k\"onnen.
Nehmen wir an, wir haben eine Hypothesenfamilie, wie sie in Abb. 3 gezeigt ist.
Die jeweils abgelehnten Testhypothesen sind durch Kreuze gekennzeichnet.
							 
\vspace{2ex}
\begin{small}
\begin{tabular}{|c|c|c|c||c|c|c|}
\hline
\multicolumn{7}{|c|} {\ } \\
\multicolumn{7}{|c|}  {{\bf Abb. 3}} \\
\multicolumn{7}{|c|} {\ } \\
\multicolumn{7}{|c|}  {M\"ogliche Ergebnisse eines multiplen Testverfahrens} \\
\multicolumn{7}{|c|}  {beim Vergleich der Parameter aus 3 Stichproben} \\
\multicolumn{7}{|c|} {\ } \\
\hline
 & & 1 & 2 & 3 & 4 & 5 \\
\hline
 & & & & & & \\
$H_0^g$ : & $\mu_1 = \mu_2 = \mu_3$ & - & + & + & + & +  \\
 & & & & & & \\
$H_0^1$ : & $\mu_1 = \mu_2$         & + & + & + & + & -  \\
$H_0^2$ : & $\mu_1 = \mu_3$         & - & + & + & - & -  \\
$H_0^3$ : & $\mu_2 = \mu_3$         & - & + & - & - & -  \\
          &                         & nicht & & & &  \\
          &                         & koh\"arent& & & &  \\
\hline
\end{tabular}
\end{small}
\vspace{2ex}
	    
Betrachten wir zun\"achst die Ergebnisspalte 1. Falls wir ein solches Ergebnis
be\-k\"a\-men, m\"u\ss ten wir sagen, da\ss \ $\mu_1 \ne \mu_2$, da\ss \ aber
m\"oglicherweise $\mu_1=\mu_2=\mu_3$.
Ein solches unsinniges, in sich widerspr\"uchliches Ergebnis eines multiplen
Testverfahrens nennt man ``nicht koh\"arent''.  Bei der Konstruktion multipler
Testverfahren hat man unbedingt darauf zu achten, da\ss \ nur koh\"arente
Ergebnisse auftreten k\"onnen.  Das l\"a\ss t sich z.B. dadurch erreichen,
da\ss \ man, wie oben beschrieben, den Einzeltests einen glo\-balen Test
vorausschickt. Trotzdem ist es unvermeidlich, da\ss \ auch koh\"arente
Testverfahren Ergebnisse produzieren k\"onnen, die den Versuchsansteller nicht
voll befriedigen. Die Ergebnisse in den Spalten 2 und 3 sind sehr leicht zu
interpretieren: Ergebnis 2 bedeutet, da\ss \ alle Parameter sich unterscheiden,
und aus Ergebnis 3 ist zu schlie\ss en, da\ss \ $\mu_1 \ne \mu_2$ und
$\mu_1 \ne \mu_3$. Weniger zufriedenstellend ist das Ergebnis in Spalte 4:
Es bedeutet, da\ss  \ $\mu_1 \ne \mu_2$. Daraus folgt, da\ss  \ 
notwendigerweise entweder $\mu_1 \ne \mu_3$ oder $\mu_2 \ne \mu_3$
Wir k\"onnen aber nicht entscheiden, {\bf welche} dieser beiden Aussagen richtig
ist, obwohl wir genau wissen, da\ss \  eine von ihnen richtig sein 
{\bf mu\ss \ }.   Noch unbefriedigender ist das Ergebnis
in Spalte 5: Wir m\"ussen folgern, da\ss \ nicht alle $\mu$'s gleich sind,
wir wissen aber nicht, zwischen welchen von ihnen die Unterschiede bestehen.
Leider k\"onnen derartige Ergebnisse auftreten, und es gibt keine M\"oglichkeit,
sie von vornherein auszuschlie\ss en.

In der Angewandten Statistik ist es nicht die Ausnahme, sondern die Regel,
da\ss \ eine Aussage auf den Ergebnissen mehrerer, manchmal sogar sehr vieler
Tests beruht.  Man denke z.B. an medizinische Untersuchungen \"uber Haupt- und
Nebenwirkungen von Arzneimitteln, die man in mehreren Krankenh\"ausern und
au\ss erdem noch in Tierversuchsanstalten durchf\"uhrt, und bei denen man viele
physiologische Gr\"o\ss en mi\ss t. Das Gleiche gilt f\"ur epidemiologische
Untersuchungen, sei es von menschlichen Krankheiten, sei es im Zusammenhang mit
dem Waldsterben. In jedem dieser F\"alle testet man niemals eine einzige
Hypothese, sondern stets eine Hypothesenfamilie, um eine statistisch
abgesicherte Aussage zu bekommen.  Leider wendet man in der Praxis bisher nur
selten die f\"ur diesen Fall ad\"aquaten Verfahren an; und ich hoffe, durch
diesen Vortrag ein wenig zu ihrer Verbreitung beigetragen zu haben.

\

{\bf Literaturverzeichnis}

\begin{description}

\item[Bonferroni,C.E.], 1936 : Theoria statistica classi e calcolo delle
probabilit\'a. \\
Pubbl.R.Int.Super.Sci.Econ.Comm. Firenze 8 : 1-62.

\item[Gabriel,K.R.], 1969 : Simultaneous test procedures - some theory of
multiple comparisons. Ann.Math.Statist. 40, 224-250.

\item[Holm,S.], 1977 : Sequentially rejective multiple test procedures.\\
Statistical research report 1977-1, University of Umea, Sweden

\item[Holm,S.], 1979 : A simple sequentially rejective multiple test
procedure.\\
Scand.J.Statist. 6, 65-70.

\item[Shaffer,J.P.], 1986 : Modified sequentially rejective multiple test
procedures. \\
J.Am.Statist.Assoc. 81, 826-831.

\item[Sonnemann,E.], 1981 : Tests zum multiplen Niveau $\alpha$. Simultane
Hypo\-thesen\-pr\"ufungen; Tagungsbericht der Region \"Osterreich-Schweiz
der Inter\-natio\-nalen Biometrischen Gesellschaft Bad Ischl (A) 1981

\item[Sonnemann,E.], 1982 : Allgemeine L\"osungen multipler Testprobleme.\\
EDV Med. Biol. 13, 120-128.

\end{description}

{\bf Anschrift des Verfassers:} \\
 Prof.  Dr. H.D. Quednau, Forstwiss.  Fakult\"at der LMU, \\
 Am Hochanger 13,  D-85354 Freising \\
 email : quednau@lrz.uni-muenchen.de \\
 WWW: http://www.forst.uni-muenchen.de/$\sim$quednau/
																	 
\end{document}

