1.1        Statistische Methoden

Es wurden die statistischen Methoden multiple Regression, Generalized Linear Models (GLM), PCA (Hauptkomponentenanalyse), CCA (canonische Correspondenzanalyse) und RDA (Redundanzanalyse) verwendet um die Proben darzustellen und Beziehungen zwischen Arten und Umweltfaktoren zu analysieren. Die zu analysierenden Datensätze wurden zunächst in Excel und Access transformiert, um dann mittels des Programmpakets CANOCO analysiert und als Scatter-Plots dargestellt zu werden. Die GLM Analyse erfolgte ebenfalls mittels CANOCO bzw. mittels des zum Programmpaket gehörigen Programms CANODRAW. Die Ermittlung der Regressionskoeffizienten der RDA erfolgte mittels multipler Regression in Excel.

1.1.1          Multivariate Methoden; die Ordinationstechniken RDA und PCA

Die zur Analyse der Beziehungen verwendeten Methoden RDA und PCA sind multivariate Ordinationstechniken. Es wird versucht, Proben aufgrund ihrer Artenzusammensetzung als räumliche Punktwolken abzubilden, um Beziehungen zwischen Artenzusammensetzung der Proben und zugehörigem Umweltparametersatz erkennen zu können.

Es wird unterschieden nach Methoden, welche die Umweltparameter in die Abbildung mit einbeziehen (direkte Gradientenanalysen (CCA, RDA)) und solchen ohne die Umweltparameter. Eine Hypothesenbildung wird folglich über die zugrunde liegende Verteilung der Spezies allein versucht (PCA, CA).

Im Projekt wurden für die Analyse des Benthos die Methoden RDA und PCA verwendet, welche daher im Weiteren auch beschrieben werden. Die Berechnung der Punktwolken der RDA wird in Ter Braak & Smilauer (1998) und Ter Braak (1993) beschrieben. Da sie Grundlage für die in 6.9.2 durchgeführte Bestimmung der Koeffizienten ist, wird sie hier zusammengefasst und angepasst wiedergegeben.

Bei RDA und PCA wird von einem linearen Modell ausgegangen, d.h. die Reaktion der Art auf den Umweltfaktor soll stetig linear sein. Dies kann insbesondere bei der Betrachtung eines kleinen Ausschnitts des Umweltparameters der Fall sein, z.B. wenn das ökologische Optimum der Art nicht im gemessenen Ausschnitt des Umweltparameters liegt.

Die Geradengleichung beschreibt diesen linearen Zusammenhang.

Gleichung 2: Geradengleichung,.

Es gelten:

yiΦ:       Abundanz der Art Φ der i-ten Probestelle

Vi:        Wert des Umweltfaktors zugehörig zur Probestelle i

mΦ:       Regressionskoeffizient, Steigung (der Art Φ)

aΦ:        y Achsenabschnitt (der Art Φ)

error:    Fehler der Schätzung von Art Φ der i-ten Probestelle

Mit:

Spezies 1→Φ

Umweltvariablen 1j

Proben 1i

 

Die Regressionskoeffizienten mΦ und aΦ müssen ermittelt werden. Dies geschieht in der PCA mittels einer Kombination aus Calibration und Regression mit iterativem Ansatz (s. Ter Braak 1993, Gourlay & Watson 1973). D.h. die PCA fittet aus einer Anzahl Proben i, in welcher die Abundanz yΦi für m Spezies bekannt ist, einen theoretischen Umweltparameter, der die beste Erklärung liefert. Dies ist der sample score K für die Probe i. Die Achsen der PCA werden so in die Punktewolke konstruiert, dass sie die größte Varianz im Datensatz markieren.

In der RDA dagegen wird nach den gewichteten Mittelwerten (weighted sums) der Umweltvariabeln gesucht, die die Artaufnahme am besten erklären, bzw. fitten. Die Achsen der RDA werden also so konstruiert, dass sie eine Linearkombination der Umweltvariablen darstellen, welche die maximale Gesamtsumme der Quadrate (maximum total regression sum of Squares) darstellt. Grundgedanke und die Modellvoraussetzung der RDA für die Einbeziehung der Umweltvariabeln in das Modell ist daher, dass der sample score Ki eine Linearkombination („weighted aggregate“) der gemessenen Umweltvariabeln ist. Dieser sample score wird in der Nomenklatur des Programms CANOCO „SamE score“ genannt.

Für 2 Umweltvariabeln lautet das constraint:

Gleichung 3: constraint für 2 Umweltvariablen.

Es gelten:        

K i:                   SamE score für Probe i

ßj:                    (canonischer) Regressionskoeffizient der Umweltvariable Vj

Vji:                    Wert der Umweltvariable j in Probe i

 

Die Bestimmung der Koeffizienten der RDA erfolgt mittels des um einen Schritt erweiterten iterativen Prozesses, welcher zur Bestimmung der PCA Koeffizienten benutzt wird (Ter Braak 1993). Die auf diese Art und Weise bestimmten „best passenden“ Koeffizienten „β“, werden  „canonische Koeffizienten“ genannt und der multiple Korrelationskoeffizient „R“ beschreibt die Korrelation von Arten zu Umweltvariablen .

Durch Einsetzen des theoretischen Umweltparameters Ki für Vi in Gleichung 2 erhält man:

Gleichung 4: Modell der RDA.

Die RDA bestimmt die Unbekannten in diesem Modell, d.h. die Art spezifischen Parameter aΦ und mΦ, sowie die Koeffizienten β1 und β2 abgeleitet von den Spezies Daten {yiΦ} und den Daten der Umgebungsvariablen {Vij}:

 

Es wird definiert:

 und

Gleichung 5: Definition von b.

Damit ergibt sich durch Einsetzen von Gleichung 5 in Gleichung 4 ein multiples Regressions-→→ Modell:

Gleichung 6: Modell der RDA als multiples Regressions Modell.

Die multiple Regression wird innerhalb des iterativen Algorithmus ausgeführt, welcher für die PCA genannt wurde. Die RDA ist daher eine multiple Regression über alle Arten in allen Proben, d.h. eine multivariate Regression.

Das skizzierte Modell kann von einer Dimension auf zwei Dimensionen erweitert werden. Für zwei Dimensionen ändert sich Gleichung 2 zu:

Gleichung 7: Geradengleichung für 2 Achsen.

Es gelten:

yiΦ        Abundanz der Art Φ der i-ten Probestelle

Vis:       Sample score zugehörig zur Probestelle i auf der s- ten  Achse

mΦs:      Species score, Regressionskoeffizient, der Art Φ auf der s- ten  Achse

aΦ:        Regressionskoeffizient, Schnittpunkt mit y Achse (der Art Φ)

eΦi:       Fehler der Schätzung von Art Φ der i-ten Probestelle

Mit:

Achsen 1 s (s=1; 2)

 

In der RDA werden die sample scores constraint mit:

Gleichung 8: constraint für 2 Umweltvariablen.

Es gilt: 

ßjs:       (canonischer) Regressionskoeffizient der Umweltvariable Vj auf der s-ten  Achse

 

Durch Einsetzen von Gleichung 8 in Gleichung 7 ergibt sich:

Gleichung 9: Modell der RDA, Notation für 2 Dimensionen.

Es wird definiert:

 und

Gleichung 10: Definition von b.

Damit ergibt sich durch Einsetzen von Gleichung 5 in Gleichung 4 ein multiples Regressions Modell:

Gleichung 11: Modell der RDA als multiples Regressions- Modell für 2 Dimensionen (Achsen).

Weitere Dimensionen, d.h. Achsen der RDA, werden analog berechnet.

Das Verfahren zur Bestimmung der Koeffizienten wird unter 6.9.2 unten beschrieben.

1.1.2          Multiple Regression – Bestimmung der Regressionskoeffizienten der RDA

Mittels der RDA wird ein Artenraum – Umweltfaktoren Raum aufgespannt. D.h. die Lage jeder Probe (Koordinaten im Arten/Umweltfaktorenraum) definiert sich aus der hier vorgefundenen Fauna (Artenzusammensetzung) und/bzw. oder den hier herrschenden Umweltparametersatz (s.o.)

Die Vorhersage der Fauna einer Probe i kann also über die Umweltparameter erfolgen, genauso wie die Vorhersage der Umweltparameter über die Fauna erfolgen kann, falls die Koordinaten dieser Probe i mit dem hypothetischen Umweltparametersatz bestimmt wurden. Für eine Bestimmung der Koordinaten der Probe i müssen zunächst die Koeffizienten des linearen Modells der RDA bestimmt werden. Dies erfolgt durch 4 multiple Regressionen von Umweltfaktoren als unabhängiger Variable über die Koordinaten der aufgenommenen Proben (SamE scores). Man erhält für die Umweltvariablen pro Achse einen Satz Regressionskoeffizienten (d.h. bei vier Achsen vier Koeffizienten-Sätze).

Ki1 = a1.Achse +(bEnv_1/1.Achse * VEnv_1/1.Achse )+...    ...+ (bEnv_n/1.Achse * VEnv_n/1.Achse)

K i2 = a2.Achse+ (bEnv_1/2.Achse * VEnv_1/2.Achse )+...    ...+ (bEnv_n/2.Achse * VEnv_n/2.Achse)

K i3 = a3.Achse+ (bEnv_1/3.Achse * VEnv_1/3.Achse )+...    ...+ (bEnv_n/3.Achse * VEnv_n/3.Achse)

K i4 = a4.Achse+ (bEnv_1/4.Achse * VEnv_1/4.Achse )+...    ...+ (bEnv_n/4.Achse * VEnv_n/4.Achse)

Gleichung 12: Bestimmung der SamE scores (Koordinaten) der Proben der RDA

Es gelten:

K i1..4:    SamE scores Achsen 1-4 für Probe i

bEnv_1-n/1-4.Achse:     Koeffizient der Umweltvariablen VEnv_1-n auf Achse 1-4

VEnv_1-n/1.-4.Achse:    (standardisierte) Werte der Umweltvariablen VEnv_1-n in Probe i

a1...-4.Achse:           y-Achsenabschnitt auf Achse 1-4

Der Vektor entspringt immer dem Ursprung des Koordinatensystems. Die Variable a1...-4.Achse ist daher 0 und entfällt. Damit entspricht Gleichung 12 Gleichung 8.

Probe i

K1

2. Achse

K2

Art Φ

b1

b2

1. Achse

Abbildung: Modell der RDA.

 

Die Bestimmung der Abundanz in dieser hypothetischen Probe i erfolgt dann über eine weitere multiple Regression der Koordinaten (SamE scores) der Proben als unabhängiger Variable, über die Abundanzen der Spezies der aufgenommenen Proben. Man erhält für jede Spezies für die die Regression durchgeführt wurde, die Funktion zur Berechnung der Abundanz für eine Probe bei bekannten Koordinaten. Anders ausgedrückt: Die Abundanz einer Spezies Φ in einer Probe wird in Verhältnis gesetzt, von der Lage der Probe zu der Spitze des Arten Vektors (species score), welcher das Ergebnis der Regression der Abundanz der Art über die SamE Scores aller Proben darstellt.

 

 

Gleichung 13: Bestimmung der Abundanz (RDA, für Achsen 1-4). 

 

Es gelten:

:     Abundanz der Art Φ in Probe i

:               Mittelwert der Abundanzen in den Proben (1 bis i) der Art Φ (zentrierte RDA))

K i/1..4.Achse:          SamE score Achsen 1-4 der Probe i

b1-4:                  Koeffizienten Achsen 1-4 der Art Φ » Spec. score (wenn gilt interset correlation =1)

Gleichung 13 entspricht damit Gleichung 11 bis auf den Regressionskoeffizienten aΦ. Die Spezies-Daten werden für die RDA zentriert (s. Kapitel 6.9.5), daher entfällt a und muss für die Berechnung hypothetischer Abundanzen durch den Mittelwert der Abundanzen ersetzt werden. Die Berechnung der Koeffizienten wurde für 4 Dimensionen (Achsen durchgeführt, da nach Tests davon ausgegangen wurde, dass weitere Achsen nicht wesentlich zur Varianzerklärung beitragen.

 

Bei einer Transformation der Abundanzen mit A=10 und B=1, wie sie für die Taxa- Datensätze durchgeführt wurde ändert sich Gleichung 13 zu:

Gleichung 14: Bestimmung der Abundanz (RDA, für Achsen 1-4) bei ln-transf. Daten.

 

Durch Einsetzen von Ki1..4 aus Gleichung 12 in Gleichung 14 ergibt sich folgender Term zur Berechnung der Abundanz eines Taxons in Abhängigkeit der Umweltparameter:

 

 

Gleichung 15: Berechnung der Abundanz eines Taxons in Abhängigkeit von den Umweltparametern.

Die Umweltfaktoren werden vor der Ordination standardisiert um sie vergleichbar zu machen. Das gleiche Verfahren muss daher auch für hypothetische Umweltfaktoren angewandt werden. Diese können aber nicht mit den anderen Faktoren standardisiert werden, da sie sonst das Ergebnis der Standardisierung und jeden standardisierten Wert verändern. Daher wird eine lineare Regression durchgeführt, um den Wert des hypothetischen Umweltfaktors im Wertebereich und auf der Skala der standardisierten Umweltfaktoren einordnen zu können. Obige Funktion erweitert sich daher für jeden Umweltfaktor um einen weiteren Term der Form

 

Es gelten:

Venv       Wert des Umweltfaktors 1 bzw. bis n

c          Konstante

γ          Konstante

 

Damit ändert sich die Gleichung zur Berechnung der Abundanz zu:

Gleichung 16: Berechnung der Abundanz eines Taxons in Abhängigkeit von den Umweltparametern (bei standardisierten Parametern).

Zur Absicherung der Aussagen der Korrelationen von Achsen und Umgebungsvariabeln mittels des multiplen Korrelationskoeffizienten R und Prüfung auf Signifikanz, wird der f-Test verwendet. Die einzelnen Teilregressionskoeffizienten werden mittels t-Test auf Signifikanz geprüft. 

Das Ergebnis der Berechnung der Abundanz der Spezies oder Taxa durch ein solches Polynom wie oben abgebildet kann auch negativ sein, da das Ergebnis der Geradengleichung auch negativ sein kann. Da negative Abundanzen aber nicht möglich sind, wurde dann das Ergebnis als 0 = kein Vorkommen bezeichnet.

1.1.3          Ermittlung der Korrelationen von Umweltparametern und Abundanzen mittels Generalized Linear Models (GLM)

Zur Vorhersage der Abundanzen wurde ein „fixed regression model“ zweiter Ordnung benutzt (s. Smilauer 1992). Im eindimensionalen Fall (die vorherzusagende (abhängige) Variable (y) wird gegen eine Ordinationsachse oder eine andere (Umwelt-)Variable aufgetragen), wird der Zusammenhang zwischen Abundanz und Umweltparameter durch folgenden Term beschrieben:

Gleichung 17: Polynom 2. Grades zur Bestimmung von y 

In der GLM- Terminologie (generalized linear models) stellt dieser lineare Prediktor einen Spezialfall dar, in dem die vorherzusagende Variable normalverteilt ist. Da eine Normalverteilungsannahme jedoch häufig für biologische Daten nicht zutrifft, wird der lineare Prediktor um die so genannte link function erweitert.

Die link Funktion g lautet für E(Y), dem Erwartungswert von Y, im allgemeinen Fall:

g(E(Y))=n und ist abhängig von der Verteilung der vorherzusagenden Variablen.

Für eine normalverteilte vorherzusagende Variable ergibt sich daraus g(V)=V (identity link) und ist somit identisch mit dem linearen Prediktor. Für die Poisson-Verteilung heißt die link Funktion: g(V)=ln(V) (log link). Dieser Zufallsverteilung folgen (theoretisch) unabhängige, gemessene Anzahlen, wie z.B. die Anzahl von Tieren, die in einer Probe gemessen werden, und wird hier implizit angenommen.

Für die vorliegenden Datensätze wurde die Poisson-Verteilung angenommen. Die Funktion für die geschätzten Abundanzen (y) bei gegebenem Umweltfaktor (V) lautet dann:

Gleichung 18: link Funktion 

Mittels der oben beschriebenen Ableitung sind lediglich Zusammenhänge zwischen einer Umweltvariablen und einer Spezies darzustellen. D.h. weitere Umweltfaktoren müssen, ebenso wie die Interaktionen zwischen den Arten, als konstant bei der Betrachtung des Umweltfaktors angenommen werden. Zudem sind die Teil- Regressionskoeffizienten, welche mittels multipler Regression erhalten werden, sind nur unter der Voraussetzung jenen gleichzusetzen welche mittels einer Regression von Abundanz gegen jeweils einen Umweltfaktor erhalten werden, dass die Umgebungsvariablen unkorreliert sind. Da dies in der Natur nur für wenige Variablen zutrifft, ist eine multivariate multiple Regression das Mittel der Wahl zur Analyse der Beziehungen zwischen mehreren Arten und mehreren Umgebungsfaktoren. Weiterhin ist nach Leps (1998) die Gefahr einen Type I Error zu begehen (die Nullhypothese wird abgelehnt, obwohl sie richtig ist, d.h. die Korrelation besteht auf gegebenem Signifikanzniveau tatsächlich nicht.) bei jedem univariaten Test gleich groß ist (bei a=0,05 in einem von 20 Fällen) und addiert sich mit der Anzahl der Tests. D.h. bei 20 untersuchten Spezies ist statistisch gesehen eine Art, deren Beziehung fälschlicherweise als signifikant angesehen wird. Dieser Fehler wird minimiert, indem eine Vorauswahl der durch die multivariaten Methode als signifikant dargestellten Arten getroffen wird und hiernach die univariate Methode angewendet wird.

Allerdings liegt der RDA und der Regression ein lineares Modell zugrunde, welches oft nur für einen kleinen Ausschnitt des Response einer Spezies auf einen Umweltfaktor zutrifft. Um abzutesten, ob tatsächlich lineares Antwortverhalten vorliegt wurde, neben dem Test durch DCA, wie er von Ter Braak (1998) empfohlen wird die GLM Analyse durchgeführt.