Show Menu
Cheatography

Statistiek met R Cheat Sheet (DRAFT) by

This is a draft cheat sheet. It is a work in progress and is not finished yet.

EXTRA

Twee plots naast elkaar
par(mf­row­=c(­1,2))
Plots naast elkaar uitsch­akelen
dev.off()

Z-toets

Standa­ard­normale verdeling
dnorm(x (evt, mean=, sd=))
Standa­ard­normale verdeling plot
plot(x, dnorm(x))
Kans berekenen
pnorm(i, mean, sd)
Voorsp­ell­ing­sin­terval 95% berekenen
qnorm(­c(0.025, 0.975), mean, sd
Voorsp­ell­ing­sin­terval 99% berekenen
qnorm(­c(0.05, 0.995), mean, sd)
Voorsp­ell­ing­sin­terval 95% van steekproef berekenen
qnorm(­c(0.025, 0.975), mean, sd/sqr­t(j))
i = variabel dat je wilt testen
j = steekp­roe­fgr­ootte (n)

T-test

Bij een gepaarde test,
t.test(na, voor, paired = T)

Hypothesen

Shapir­o-Wilk test
H0: De data is normaal verdeeld.
HA: De data is niet normaal verdeeld.
T-test
H0: Er is geen verschil tussen de verwac­hti­ngs­waarde en het gemidd­elde.
HA: Er is wel verschil tussen de verwac­hti­ngs­waarde en het gemidd­elde.
W-M-W-test
H0: De populatie distri­butie van X1 en X2 is hetzelfde.
HA: De populatie distri­butie van X1 en X2 zijn niet hetzelfde (versc­hil­lend).
Chi-kw­adraat homoge­niteit
H0: Er is geen onafha­nke­lij­kheid. (Geen verschil in verdeling)
HA: Er is geen onafha­nke­lij­kheid. (Wel verschil in verdel­ing.)
Chi-kw­adraat goodne­ss-­of-fit
H0: Er is geen verband tussen X1 en X2,
HA: Er is een verband tussen X1 en X2.
ANOVA
H0: Er is geen verschil in de verwac­hti­ngs­waa­rden.
HA: Er is minimaal één van de gemiddelde die signif­icant versch­illend is van de andere gemidd­elden.
The Sign test
H0: De distri­butie van X1 is hetzelfde als X2.
HA: De distri­butie van X1 is niet hetzelfde als X2.
WSR test
H0: Er is geen verschil in Y tussen X1 en X2.
HA: Er is wel verschil in Y tussen X1 en X2.
Shapiro Wilk test:
P > 0.05? Data is normaal verdeeld. H0 niet verwerpen.
P < 0.05? Data niet normaal verdeeld. H0 verwerpen.
- De gevonden versch­illen berusten niet alleen op toeval.

Standaard bereke­ningen

Gemiddelde
mean()
Mediaan
median()
Variantie
var()
Standa­ard­dev­iatie
sd()
Kwantiel
quantile()
Gemidd­elde, kwartielen en mediaan
summary()

Binomale testen

Binomale verdeling voor plot
dbinom(x, aantal, kans)
Kans berekenen
pbinom(x, aantal, kans, lower.t­ai­l=TRUE)
Kwantielen
qbinom(x, aantal, kans, lower.t­ai­l=TRUE)
x
seq(st­art­waarde, stopwa­arde, stapgr­ootte)

Lineaire Regressie

Scatte­rplot maken
plot(y~x)
Lineaire regres­sielijn
lm(y~x)
Regres­sielijn toevoegen in plot
lines(­reg­res­sie­$fi­tte­d.v­alu­es~­data$x, type="l­")
Correlatie coëffi­cië­nt/­bepalen
cor(x, y)
Sterkte van correlatie berekenen
cor.te­st(x, y)
Fitted waarden (verwa­chtte y-waarde)
fitted­(re­gre­ssie)
Residue waarden (verschil tussen fitted en waarge­nomen)
resid(­reg­ressie)
Residue waarden in plot weergeven
segmen­ts(x, y, x, fitted­(re­gre­ssie))
Verschil fitted waarden tussen prediction interval
predic­t.l­m(r­egr­essie, int = 'predi­ction')
Verschil fitted waarden tussen confidence interval
predic­t.l­m(r­egr­essie, int = 'confi­dence'
Plot van opgestelde model
abline­(slope, interc­eption)
x <- variable met vaste waarden
y <- random
Y is somehow afhank­elijk van X.
regressie <- lm(y~x)

Chi-kw­adraat test

Chi-kw­adraat test ( χ2 berekenen)
chisq.t­est(x)
Voorspelde waarden bij geen verband
chisq.t­es­t(x­)$e­xpected
Verschil tussen verwachtte en gevonden waarden weergeven
chisq.t­es­t(x­)$r­esi­duals
Kwantielen om te plotte­n/g­ren­swaarde van de grootheid χ2
qchisq­(0.99, df)
Chi-kw­adraat om te plotten
dchisq()
Conclusie
Er is wel/geen verband in verdeling tussen groepen.
Deze toets gebruiken voor data met een catego­rische respons: data die je in catego­rieën kan verdelen.
x = een matrix
df = degrees of freedom (aantal rijen -1 ) * (aantal kolommen -1) ! totaal niet meenemen

Chi-kw­adraat Goodness of Fit

Komt een gevonden verdeling van waarden van één kwalit­atief kenmerk overeen met verwachte verdeling?
Goodness of fit (aanpa­ssing)
bv: dobbel­steen, wordt elke zijde 1/6 van alle keren geworpen?

Chi-kw­adraat Homoge­niteit

Is er een verband tussen kwalit­atieve kenmerken?
indepe­ndence and homoge­neity (onafh­ank­eli­jkheid en homoge­niteit)
bv: mannen­/vr­ouwen en rokers­/ni­et-­rokers

Niet-p­ara­met­rische testen

Wilcoxon signed rank test
wilcox.te­st(­data1, data2, paired­=TRUE, exact = TRUE, conf.level = (confi­dence level 0.95/0.99), conf.int = TRUE)
Wilcoxon Mann-W­hitney test
wilcox.te­st(­data1, data2, altern­ative = 'great­er/­less, exact = FALSE, conf.int = TRUE, conf.level = 0.95/0.99)
Verschil toetsen bij niet-n­ormaal verdeelde data.
Bij onafha­nke­lijke data: WMW.
Bij afhank­elijke data: sign test of WSR.
Altern­ative alleen gebruiken bij eenzijdige toetsen.

ANOVA

1) Kijken of elke groep data normaal verdeeld is
shapir­o.t­est()
2) 1 kolom met waarden, 1 kolom met indicator
stack()
3.1) One-way ANOVA
anova(­lm(­waa­rde­s~i­ndi­cator))
3.2a) Two-way ANOVA per factor
anova(­lm(­waa­rde­s~i­ndi­cator1 + indica­tor2))
3.2b) Two-way ANOVA interactie testen
anova(­lm(­waa­rde­s~i­ndi­cator1 : indica­tor2))
3.2c) Two-way ANOVA factor + interactie
anova(­lm(­waa­rde­s~i­ndi­cator1 * indica­tor2))
Boxplot maken van two way ANOVA
boxplo­t(w­aardes ~ indicator1 + indica­tor2)
Interactie plot
intera­cti­on.p­lo­t(i­ndi­cator1, indica­tor2, y)
* Unstacken om de shapiro test te doen
unstac­k(data, form = waardes ~ indicator)
* Shapiro test voor alle groepen tegeli­jke­rtijd
lapply­(un­sta­ckd­ata­,sh­api­ro.t­est)

Post-hoc

Bonferroni correctie
paired.t.t­es­t(v­alues, indicator, p.adju­st.m­et­hod­="bo­nfe­rro­ni")
Tukey HSD
TukeyH­SD(­aov­(lm­(va­lue­s~i­dic­ator)))
Gebruik dit na de ANOVA om te kijken welke catego­rieën precies afwijken.
values = y
indicators = x