-
Notifications
You must be signed in to change notification settings - Fork 0
/
stat_korrelation.Rmd
23 lines (17 loc) · 2.37 KB
/
stat_korrelation.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
---
title: "Korrelation"
output:
html_document:
includes:
after_body: footer.html
---
> Ein zum Thema passendes Youtube Video gibt's [hier](https://youtu.be/GtV-VYdNt_g)
# Eine kurze Zusammenfassung
Um eine Beziehung zwischen zwei numerischen Variablen in Zahlen ausdrücken zu können, eignet sich die Korrelation (auch *Korrelationskoeffizient*, *Produkt-Moment-Korrelation*, *Pearson-Korrelation*). Sie wird als $\rho$ bzw. $r$ angegeben und kann einen Wert von $-1$ bis $+1$ annehmen. Tatsächlich kann man aus einem Plot wie dem oben schon recht gut abschätzen was für eine Korrelation zu erwarten ist. Hier zum Vergleich ein Überblick:
<center>
<img src="images/AllCorrs.PNG" style="width:50%">
</center>
Wie man sieht bedeutet also $\rho=0$, dass es *keine Korrelation* gibt - die zwei Merkmale x und y bedingen sich scheinbar nicht. Je weiter die Werte von 0 entfernt liegen, desto stärker ist die Korrelation - entweder im positive oder im negativen. Eine positive Korrelation bedeutet, dass wenn eine Variable größer wird, die andere das auch tut. Eine negative Korrelation bedeutet, dass wenn eine Variable größer wird, die andere kleiner wird. Deswegen ist übrigens auch die Reihenfolge der beiden Variablen egal: Die Korrelation zwischen x und y ist dieselbe wie die zwischen y und x. Unter anderem deshalb ist die Korrelation auch kein statistisches Modell - sie kann ja auch keine Vorhersagen machen. Außerdem ist Korrelation auch nicht gleich Kausalität, sprich nur weil zwei Merkmale korrelieren, heißt es noch lange nicht, dass ein Merkmale das andere direkt bedingt ([Hier](https://www.tylervigen.com/spurious-correlations) eine Seite mit interessanten Beispielen dazu).
## Signifikanz
Die Nullhypothese $H_0$ behauptet, dass es in Wahrheit keine Korrelation gibt, also $H_0: \rho=0$ und die Alternativehypothese $H_A$ behauptet, dass dies eben nicht so ist $H_A: \rho\neq0$. Mit dem Befehl `cor.test()` wird geprüft ob die Nullhyopthese abgelehnt werden kann. Wenn dies der Fall ist, ist die Korrelation signifikant. Genauer: Die Korrelation ist signifikant von 0 verschieden.
Wenn der Schätzwert für die Korrelation deutlich von 0 abweicht, mag dies nicht sehr sinnvoll erscheinen. Doch gerade in Fällen bei denen $r$ einen Wert nahe 0 einnimmmt und der zugrundeliegende Datensatz nicht sehr groß ist, kann die Erkenntnis der Signifikanz einen Mehrwert haben.