Show Menu
Cheatography

Statistiek met R Cheat Sheet (DRAFT) by

This is a draft cheat sheet. It is a work in progress and is not finished yet.

EXTRA

Twee plots naast elkaar
par(m­fro­w=c­(1,2))
Plots naast elkaar uitsch­akelen
dev.o­ff()

Z-toets

Standa­ard­normale verdeling
dnorm(x (evt, mean=, sd=))
Standa­ard­normale verdeling plot
plot(x, dnorm(x))
Kans berekenen
pnorm(i, mean, sd)
Voorsp­ell­ing­sin­terval 95% berekenen
qnorm­(c(­0.025, 0.975), mean, sd
Voorsp­ell­ing­sin­terval 99% berekenen
qnorm­(c(­0.05, 0.995), mean, sd)
Voorsp­ell­ing­sin­terval 95% van steekproef berekenen
qnorm­(c(­0.025, 0.975), mean, sd/sqr­t(j))
i = variabel dat je wilt testen
j = steekp­roe­fgr­ootte (n)

T-test

Bij een gepaarde test, t.tes­t(na, voor, paired = T)

Hypothesen

Shapir­o-Wilk test
H0: De data is normaal verdeeld.
HA: De data is niet normaal verdeeld.
T-test
H0: Er is geen verschil tussen de verwac­hti­ngs­waarde en het gemidd­elde.
HA: Er is wel verschil tussen de verwac­hti­ngs­waarde en het gemidd­elde.
W-M-W-test
H0: De populatie distri­butie van X1 en X2 is hetzelfde.
HA: De populatie distri­butie van X1 en X2 zijn niet hetzelfde (versc­hil­lend).
Chi-kw­adraat homoge­niteit
H0: Er is geen onafha­nke­lij­kheid. (Geen verschil in verdeling)
HA: Er is geen onafha­nke­lij­kheid. (Wel verschil in verdel­ing.)
Chi-kw­adraat goodne­ss-­of-fit
H0: Er is geen verband tussen X1 en X2,
HA: Er is een verband tussen X1 en X2.
ANOVA
H0: Er is geen verschil in de verwac­hti­ngs­waa­rden.
HA: Er is minimaal één van de gemiddelde die signif­icant versch­illend is van de andere gemidd­elden.
The Sign test
H0: De distri­butie van X1 is hetzelfde als X2.
HA: De distri­butie van X1 is niet hetzelfde als X2.
WSR test
H0: Er is geen verschil in Y tussen X1 en X2.
HA: Er is wel verschil in Y tussen X1 en X2.
Shapiro Wilk test:
P > 0.05? Data is normaal verdeeld. H0 niet verwerpen.
P < 0.05? Data niet normaal verdeeld. H0 verwerpen.
- De gevonden versch­illen berusten niet alleen op toeval.

Standaard bereke­ningen

Gemiddelde
mean()
Mediaan
median()
Variantie
var()
Standa­ard­dev­iatie
sd()
Kwantiel
quant­ile()
Gemidd­elde, kwartielen en mediaan
summa­ry()

Binomale testen

Binomale verdeling voor plot
dbinom(x, aantal, kans)
Kans berekenen
pbinom(x, aantal, kans, lower.t­ai­l=T­RUE)
Kwantielen
qbinom(x, aantal, kans, lower.t­ai­l=T­RUE)
x
seq(s­tar­twa­arde, stopwa­arde, stapgr­ootte)

Lineaire Regressie

Scatte­rplot maken
plot(­y~x)
Lineaire regres­sielijn
lm(y~x)
Regres­sielijn toevoegen in plot
lines­(re­gre­ssi­e$f­itt­ed.v­al­ues­~da­ta$x, type="l­")
Correlatie coëffi­cië­nt/­bepalen
cor(x, y)
Sterkte van correlatie berekenen
cor.t­est(x, y)
Fitted waarden (verwa­chtte y-waarde)
fitte­d(r­egr­essie)
Residue waarden (verschil tussen fitted en waarge­nomen)
resid­(re­gre­ssie)
Residue waarden in plot weergeven
segme­nts(x, y, x, fitted­(re­gre­ssie))
Verschil fitted waarden tussen prediction interval
predi­ct.l­m(­reg­ressie, int = 'predi­cti­on')
Verschil fitted waarden tussen confidence interval
predi­ct.l­m(­reg­ressie, int = 'confi­dence'
Plot van opgestelde model
ablin­e(s­lope, interc­ept­ion)
x <- variable met vaste waarden
y <- random
Y is somehow afhank­elijk van X.
regressie <- lm(y~x)

Chi-kw­adraat test

Chi-kw­adraat test ( χ2 berekenen)
chisq.t­est(x)
Voorspelde waarden bij geen verband
chisq.t­es­t(x­)$e­xpected
Verschil tussen verwachtte en gevonden waarden weergeven
chisq.t­es­t(x­)$r­esi­duals
Kwantielen om te plotte­n/g­ren­swaarde van de grootheid χ2
qchisq­(0.99, df)
Chi-kw­adraat om te plotten
dchisq()
Conclusie
Er is wel/geen verband in verdeling tussen groepen.
Deze toets gebruiken voor data met een catego­rische respons: data die je in catego­rieën kan verdelen.
x = een matrix
df = degrees of freedom (aantal rijen -1 ) * (aantal kolommen -1) ! totaal niet meenemen

Chi-kw­adraat Goodness of Fit

Komt een gevonden verdeling van waarden van één kwalit­atief kenmerk overeen met verwachte verdeling?
Goodness of fit (aanpa­ssing)
bv: dobbel­steen, wordt elke zijde 1/6 van alle keren geworpen?

Chi-kw­adraat Homoge­niteit

Is er een verband tussen kwalit­atieve kenmerken?
indepe­ndence and homoge­neity (onafh­ank­eli­jkheid en homoge­niteit)
bv: mannen­/vr­ouwen en rokers­/ni­et-­rokers

Niet-p­ara­met­rische testen

Wilcoxon signed rank test
wilco­x.t­est­(data1, data2, paired­=TRUE, exact = TRUE, conf.level = (confi­dence level 0.95/0.99), conf.int = TRUE)
Wilcoxon Mann-W­hitney test
wilco­x.t­est­(data1, data2, altern­ative = 'great­er/­less, exact = FALSE, conf.int = TRUE, conf.level = 0.95/0.99)
Verschil toetsen bij niet-n­ormaal verdeelde data.
Bij onafha­nke­lijke data: WMW.
Bij afhank­elijke data: sign test of WSR.
Altern­ative alleen gebruiken bij eenzijdige toetsen.

ANOVA

1) Kijken of elke groep data normaal verdeeld is
shapi­ro.t­est()
2) 1 kolom met waarden, 1 kolom met indicator
stack()
3.1) One-way ANOVA
anova­(lm­(wa­ard­es~­ind­ica­tor))
3.2a) Two-way ANOVA per factor
anova­(lm­(wa­ard­es~­ind­icator1 + indica­tor2))
3.2b) Two-way ANOVA interactie testen
anova­(lm­(wa­ard­es~­ind­icator1 : indica­tor2))
3.2c) Two-way ANOVA factor + interactie
anova­(lm­(wa­ard­es~­ind­icator1 * indica­tor2))
Boxplot maken van two way ANOVA
boxpl­ot(­waardes ~ indicator1 + indica­tor2)
Interactie plot
inter­act­ion.pl­ot(­ind­ica­tor1, indica­tor2, y)
* Unstacken om de shapiro test te doen
unsta­ck(­data, form = waardes ~ indica­tor)
* Shapiro test voor alle groepen tegeli­jke­rtijd
lappl­y(u­nst­ack­dat­a,s­hap­iro.test)

Post-hoc

Bonferroni correctie
paire­d.t.te­st(­values, indicator, p.adju­st.m­et­hod­="bo­nfe­rro­ni")
Tukey HSD
Tukey­HSD­(ao­v(l­m(v­alu­es~­idi­cat­or)))
Gebruik dit na de ANOVA om te kijken welke catego­rieën precies afwijken.
values = y
indicators = x