Show Menu
Cheatography

T2. Distribuciones de probabilidad Cheat Sheet by

T2.1. Distribuciones de probabilidad

Probab­ili­dades discretas

Distri­bución uniforme
dunif(k,a,b)
punif(k,a,b)
runif(n,a,b)
variable que puede tomar n valores distintos con la misma probab­ilidad.
Probab­ilidad de que x sea k en un intervalo de a a b
runif: n muestras distintas
Distri­bución binomial
dbinom(x, size, prob)
pbinom(q, size, prob)
rbinom(n, size, prob)
cuenta el número de éxitos en n pruebas indepe­ndi­entes. x es el número de éxitos, size el número de pruebas y prob la probab­ilidad.
Distri­bución geométrica
dgeom(x, prob)
pgeom(q, prob)
rgeom(n, prob)
probab­ilidad de que tenga que realizarse un número k de repeti­ciones antes de obtener un éxito por primera vez
Distri­bución hiperg­eom­étrica
dhyper(x, m, n, k)
phyper(q, m, n, k)
rhyper(nn, m, n, k)
Tenemos una cesta con m pelotas blancas y n pelotas negras. Si sacamos k pelotas, probab­ilidad de que x o q pelotas sean blancas.
Distri­bución de Poisson
dpois(x, lambda)
ppois(q, lambda)
rpois(n, lambda)
es una forma límite de la distri­bución binomial que surge cuando se observa un evento raro después de un número grande de repeti­ciones.
Lambda es la media esperada, y x o q es el resultado que queremos cosultar.
 

Distri­buc­iones de probab­ilidad continuas

Distri­bución normal
dnorm(x, mean = 0, sd = 1)
pnorm(q, mean = 0, sd = 1)
rnorm(n, mean = 0, sd = 1)
Media es 0 y sd 1 por defecto
Distri­bución log normal
dlnorm(x, meanlog = 0, sdlog = 1)
plnorm(q, meanlog = 0, sdlog = 1
rlnorm(n, meanlog = 0, sdlog = 1)
si una variable x sigue una distri­bución lognormal entonces la variable ln(x) se distribuye normal­mente. Es útil para cuando los valores de x se encuentra muy separados.
A meanlog también se le llama parámetro de escala y a sdlog forma
Distri­bución beta
adecuada para variables aleatorias continuas que toman valores en el intervalo (0,1)
dbeta(x, shape1, shape2)
pbeta(q, shape1, shape2)
rbeta(n, shape1, shape2)
x o q es la proporción que queremos calcular
Distri­bución gamma
dgamma(x, shape, rate = 1)
pgamma(q, shape, rate = 1
rgamma(n, shape, rate = 1)
Mide el tiempo transc­urrido hasta obtener n ocurre­ncias de un evento generado por un proceso de Poisson de media lambda
Distri­bución expone­ncial
dexp(x, rate = 1)
pexp(q, rate = 1
rexp(n, rate = 1)
Es un caso particular de la distri­bución gamma. describe procesos en los que interesa saber el tiempo hasta que ocurre determ­inado evento-
Todas las que empiezan por p tienen lower.tail = TRUE
 

Distri­bución que mejor se ajusta a unos datos

descdi­st(data = datos$­price)
Análisis explor­atorio de la base de datos
distri­buc­ion­=fi­tdi­st(­dat­os$­price, distr = "­lno­rm")
summar­y(d­ist­rib­ucion)
Ajuste a una distri­bución lognormal
x=rlno­rm(x, meanlog, sdlog)
hist(x­,fr­eq=­FAL­SE,­col­="li­ght­sal­mon­"­,ma­in=­"­His­tog­ram­a",s­ub=­"­Datos simulados de una N(meanlog, sdlog)­")
simular una muestra procedente de dicha distri­bución

Compar­ación de modelo­s/a­justes con AIC y BIC

AIC (Criterio de inform­ación de Akaike)
AIC = −2log(­lik­eli­hood) + 2 × no parametros
BIC (Bayesian inform­ation criterion)
BIC = −2log(­lik­eli­hood) + log(no observ­aci­ones) × no parametros

AIC y BIC

requir­e(f­itd­ist­rplus)
dist_lnorm <- fitdis­t(d­ato­s$p­rice, distr = "­lno­rm")
dist_w­eibull <- fitdis­t(d­ato­s$p­rice, distr = "­wei­bul­l")
compar­acion <- gofstat(f = list(d­ist­_lnorm, dist_w­eib­ull))
Además de los estadi­́sticos AIC y BIC, la función gofstat() devuelve 3 estadi­́sticos de bondad de ajuste, (Kolmo­gor­ov-­Smi­rnov, Cramer-von Mises y Anders­on-­Dar­ling). Estos estadi­́st­icos, también conocidos como goodne­ss-­of-fit, contrastan la similitud entre la distri­bución empírica obtenida y la distri­bución teórica con los parám­etros estimados. Ninguno de estos 3 últimos tiene en consid­era­ción el número de parám­etros, por lo que no deben emplearse para comparar distri­buc­iones con distintos grados de libertad.
gr = denscomp(
list(d­ist­_lnorm, dist_w­eib­ull), legendtext = c("l­ogn­orm­al", "­Wei­bul­l"), xlab = "­pre­cio­", fitcol = c("r­ed", "­blu­e"),
fitlty = 1, xlegend = "­top­rig­ht", plotstyle = "­ggp­lot­", addlegend = FALSE)
Veamos gráfic­amente cuál de las dos distri­buc­iones se ajustan mejor a nuestros datos
 

Comments

No comments yet. Add yours below!

Add a Comment

Your Comment

Please enter your name.

    Please enter your email address

      Please enter your Comment.

          Related Cheat Sheets

          ggplot2-scatterplots Cheat Sheet
          iGraph Cheat Sheet

          More Cheat Sheets by julenx

          Python 1.1 Numpy Cheat Sheet
          Python pandas Cheat Sheet
          R Cheat Sheet