Show Menu
Cheatography

T2. Contrastes de hipótesis Cheat Sheet by

T2. Contrastes de hipótesis

Elementos de un contraste de hipótesis

Hipótesis nula H0
hipótesis que estamos dispuestos a aceptar si no encont­ramos evidencia suficiente de la hipótesis altern­ativa. Suele plantearse en términos de “no hay difere­ncia”.
Hipótesis altern­ativa H1
aquella de la que buscamos evidencia en nuestro estudio
Contraste unilateral
contraste en el que la hipótesis altern­ativa viene definida por un > o un < : que un parámetro sea mayor que un valor dado, que un parámetro sobre una población sea menor que el mismo parámetro sobre otra población, …
Contraste bilateral
contraste en el que la hipótesis altern­ativa viene definida por un ≠ : que un parámetro sea diferente de un valor dado, que un parámetro sobre una población sea diferente del mismo parámetro sobre otra población, …
Error de tipo I
Falso positivo: concluir que la hipótesis altern­ativa es verdadera cuando en realidad es falsa.
Nivel de signif­icación alpha
la probab­ilidad de cometer un error de tipo I, es decir, de la H1 sea falsa Suele fijarse en 5%
Nivel de confianza (1-alpha)
la probab­ilidad de no cometer un error de tipo I
Error de tipo II
Falso negativo: concluir que la hipótesis altern­ativa es falsa cuando en realidad es verdadera.
Potencia (1-b)
la probab­ilidad de no cometer un error de tipo II.
Estadí­stico de contraste
el valor que se calcula a partir de la muestra obtenida en el estudio y que se usará para tomar la decisión en el contraste planteado.
p-valor
valor de probab­ilidad, por lo que oscila entre 0 y 1. El p-valor nos muestra la probab­ilidad de haber obtenido un resultado satisf­actorio suponiendo que la hipótesis nula 𝐻0 es cierta. Es decir, lo utilizamos para saber si rechazamos o no 𝐻0 .
Intervalo de confianza
intervalo en el que, en el (1−α)×100% de las ocasiones, contiene el valor del estadí­stico del contraste
Regla de decisión
rechazamos la hipótesis nula en favor de la altern­ativa con un nivel de signif­icación α cuando el p-valor es menor o igual que el nivel de signif­icación 𝛼 .
 

Contraste de hipótesis de bondad de ajuste

1. Fijar la familia de distri­buc­iones teóricas
Si la familia es la Bernoulli, el parámetro es 𝑝 : la probab­ilidad poblac­ional de éxito.
Si la familia es la Poisson, el parámetro es λ : la esperanza.
Si la familia es la binomial, los parámetros son 𝑛 y 𝑝 : el tamaño de las muestras y la probab­ilidad de éxito, respec­tiv­amente.
Si la familia es la normal, los parámetros son 𝜇 y 𝜎 : la esperanza y la desviación típica, respec­tiv­amente
2. Si el diseño del experi­mento no fija sus valores, tendremos que estimar a partir de la muestra los valores de los parámetros que mejor se ajusten a nuestros datos. Ya hemos tratado este asunto en el Notebook 1 con la función fitdist, pero también existe una librería llamada $\tt MASS$ que tiene la función
fitdistr
que nos estima direct­amente los parámetros de todas las distri­buc­iones vistas anteri­ormente según la familia. Tenemos que saber, a priori, que distri­bución se ajusta mejor a nuestro conjunto de datos.
librar­y(MASS)
fitdis­tr(x, densfu­n="p­ois­son­")
3. Realizar el contraste y comprobar si rechazamos (o no) la hipótesis nula planteada. Se usa el test de Kolgom­oro­v-S­mirnov (K-S). El test K-S se puede utilizar para saber si 1 muestra se ajusta a una distri­bución determ­inada o para comparar si dos muestras se ajustan a la misma distri­bución.
Su sintaxis básica es
ks.test(x, y, paráme­tros)
donde:
x
es la muestra de una variable continua.
y
puede ser un segundo vector, y entonces se contrasta si ambas muestras han sido generados por la misma distri­bución continua, o el nombre de la función de distri­bución (empezando con
p
) que queremos contra­star, entre comillas; por ejemplo
"­pno­rm"
para la distri­bución normal.
Los
parámetros
de la función de distri­bución si se ha especi­ficado una; por ejemplo
mean=0
,
sd=1
para una distri­bución normal estándar. Si el p-valor es mayor que 0.05 NO podemos rechazar nuestra hipótesis nula 𝐻0 . Es decir, SÍ provienen de la misma distri­bución de probab­ilidad (con mismos valores de los paráme­tros).
Uso de gráficos para comparar una distri­bución con otra
boxplo­t(d­ata1, data2, main="B­oxplot data1 vs data2")
#o
par(mfrow=c(1,2))
hist(d­ata­1,f­req­=FA­LSE­,co­l="l­igh­tsa­lmo­n",m­ain­="Hi­sto­gra­ma",­sub­="Datos 1")
hist(d­ata­2,f­req­=FA­LSE­,co­l="l­igh­tsa­lmo­n",m­ain­="Hi­sto­gra­ma",­sub­="Datos 2")
par(mf­row­=c(­1,1))
3.2. Si estamos trabajando con una distri­bución normal también podemos utilizar el test de Kolmog­oro­v-S­mir­nov­-Li­lli­efors (K-S-L). Al contrario que el test K-S, el test K-S-L nos dice si los datos provienen de una distri­bución normal sin aportar los parámetros.
librar­y(n­ortest)
lillie.te­st(­data)
 

Contrastes de hipótesis medias paramé­tricos

Requisitos
Que las muestras procedan de poblac­iones en las que las variables se distri­buyan normal­mente. Test de Kolmogorov y Smirnov o KSL
Que las varianzas en ambas poblac­iones no difieran signif­ica­tiv­amente. La 𝐻0 en este caso es que las varianzas son iguales. Test de Barlett
bartle­tt.t­es­t(l­ist­(da­ta1­,da­ta2))
Ahora se realiza el contraste de hipótesis de medias con el test t de Student.
t.test(x, y, mu=..., altern­ati­ve=..., conf.l­eve­l=..., paired­=..., var.eq­ual­=...)
mu para especi­ficar el valor de la media que queremos contrastar en un test de una media.
paired para indicar si en un contraste de dos medias usamos muestras indepe­ndi­entes o empare­jadas. El parámetro
paired
solo lo tenemos que especi­ficar si llevamos a cabo un contraste de dos medias. En este caso, con
paired­=TRUE
indicamos que las muestras son empare­jadas, y con
paired­=FALSE
(que es su valor por defecto) que son indepe­ndi­entes
var.equal para indicar en un contraste de dos medias usando muestras indepe­ndi­entes si las varianzas poblac­ionales son iguales (igual­ándolo a TRUE) o diferentes (igual­ándolo a FALSE, que es su valor por defecto).
conf.level es el nivel de confianza $1-\al­pha$. En esta función, y en todas las que explicamos a lo largo de este capítulo, su valor por defecto, que no es necesario especi­ficar, es 0.95, que corres­ponde a un nivel de confianza del 95%, es decir, a un nivel de signif­icación $\alph­a=0.05$.
altern­ati­ve=­"­two.si­ded­" "­low­er" "­gre­ate­r"
t.test(x, mu=2)$­p.value
t.test(x, mu=2)$­con­f.int
t.test(x, mu=2)$­con­f.i­nt[1]
t.test(x, mu=2)$­con­f.i­nt[2]
t.test(S, V, altern­ati­ve=­"­les­s", var.eq­ual­=TRUE)
Ejemplo con lontiud de sépalos de iris setosa y virginica
t.test­(Hi­osc­iamina, Hioscina, altern­ati­ve=­"­les­s", paired­=TRUE)
Ejemplo test somníferos
t.test­(bw­t~s­moke, data=b­irthwt, altern­ati­ve=­"­gre­ate­r", paired­=FALSE, var.eq­ual­=TRUE)
Ejemplo con birthw­eight, donde smoke puede ser 0 o 1

Con no p mediana

Test de signos
permite contrastar si la mediana de una variable aleatoria cualquiera es un valor dado k estudiando la distri­bución de los signos de las difere­ncias entre este valor y los de una muestra (si la mediana fuera k, los números de difere­ncias positivas y negativas en muestras aleatorias seguirían distri­buc­iones binomiales con p=0.5).
contrasta si la mediana de una sola variable difiere de un valor elegido. Es decir, 𝐻0:𝜇=𝑘 .
NO se puede aplicar a dos muestras indepe­ndi­entes
se puede aplicar a dos mue. En este caso, la hipótesis nula del contraste que realiza es que 𝐻0 : la mediana de las difere­ncias de las dos variables es 0.
librar­y(BSDA)
SIGN.t­est­(co­les­terol, md=220, altern­ati­ve=­"­two.si­ded­", conf.l­eve­l=0.95)
Test de Wilcoxon
Asume que las variables son simétr­icas, es decir, media=­mediana
contrasta si la mediana de una sola variable difiere de un valor elegido. Es decir, 𝐻0:𝜇=𝑘 .
NO se puede aplicar a dos muestras indepe­ndi­entes.
se puede aplicar a dos muestras empare­jadas.
wilcox.te­st(­col­est­erol, mu=220, altern­ati­ve=­"­two.si­ded­"­,co­nf.l­ev­el=­0.95)
wilcox.te­st(­Hio­sci­amina, Hioscina, altern­ati­ve=­"­les­s", paired­=TRUE)
En este caso R nos avisa de nuevo de que el p-valor no es exacto, pero esto no afecta a la conclusión dado que el p-valor es muy pequeño: rechazamos la hipótesis nula en favor de la altern­ativa y también concluimos con este test no paramé­trico que la hioscina tiene un mayor efecto somnífero que la hiosci­amina.
Test de Mann-W­hitney
No utiliza la varianza
NO se puede aplicar para una muestra.
NO se puede aplicar a dos muestras empare­jadas.
se puede aplicar a dos muestras indepe­ndi­entes.
wilcox.te­st(­hij­os.20, hijos.30, altern­ati­ve=­"­two.si­ded­"­,pa­ire­d=F­ALSE)
 

Comments

No comments yet. Add yours below!

Add a Comment

Your Comment

Please enter your name.

    Please enter your email address

      Please enter your Comment.

          Related Cheat Sheets

          ggplot2-scatterplots Cheat Sheet
          iGraph Cheat Sheet
          Introduction to Regression in R Cheat Sheet

          More Cheat Sheets by julenx

          Python 1.1 Numpy Cheat Sheet
          Python pandas Cheat Sheet
          R Cheat Sheet