Show Menu
Cheatography

RStudio Cheat Sheet (DRAFT) by

Análisis de Datos - 10/24

This is a draft cheat sheet. It is a work in progress and is not finished yet.

GENERAL

rm(list = ls())
dat = read.table('coches.txt', header = T)
dat = read.csv('gastos.csv', header = T)
dat = na.omit(d)  # Cojo solo observ. completas
names(d)
dat$sexo  = factor(dat$sexo, labels=c('H','M'))  # Paso a factor
dat$titu  = relevel(d$titu, ref = 'GITI') # cambiar ref si >2 vars
dat2 = dat[  ,3:8]    # c(3,4,..,8) - ordenar datos
dat = dat[ ,-1]                     # Elimino columna 1
row.names(dat2) = dat$VX

round(X, digits=2)
sum(dat$SEXO == 'mujer')
dim(dat)  # Dimensiones base de datos

ESTADÍ­STICA DESCRI­PTIVA

hist(dat$V1)
hist(d$V1[d$V2 == 4])
hist(d[1:50 , 1] )

boxplot(dat$V1)                # también en dos variables
summary(dat$V1)
plot( V1 ~ V2, data = dat)
par(mfrow = c(1,2))           # Para dibujar dos gráficos a la vez

TÉCNICAS DE REGRESIÓN

mod = lm(V1 ~ V2, data = dat)  # modelo regresion
mod = lm(V1 ~ V2 + V3, data = dat) 
summary(mod)  # beta0 y beta1
abline(mod)   # Recta de Regresion
pred1=data.frame(V1=,V2=...)
predict(mod,pred1) # predicc puntual
predict(mod,pred1, interval='prediction', level=0.9) 
# predicc nueva obs
predict(mod,pred1, interval='confidence') # prmedia

confint(mod6) # intervalo de conf - si E0 no sign
mod9 = step(mod8)  # Selección de variables singif

res = residuals(mod9)   # residuos
var(dat)      # varianzas covarianzas
cor(dat)      # coefs. correlacion (matriz)
pairs(dat)    # dispersion multiple

LDA - ANÁLISIS DISCRI­MINANTE

library(MASS)
(m1 = lda( SEXO ~  . , data = dat ))
m1$scaling  # Coefs de la f.discrimante (no stand)
(a0 = -sum(m1$scaling * colMeans(dat[ , -1])))
plot(m1)
(pred1 = predict(m1))
table(pred = pred1$class, real = dat$SEXO)

prediccion$class    # Decisión del modelo
prediccion$posterior # Seguridad decisión
prediccion$x      #score o puntuación
dat$SEXO[5]    # La quinta obs. es mujer
prediccion$class[5] # modelo dice 

library(multiUS)
# .f.discriminante coef. estandarizados
m2 = ldaPlus(x = dat[,  -1], grouping = dat$SEXO)
m2$standCoefWithin   #Coeficientes estandarizados
# Con estos coef. variables son más impor.
# Si hay multicolinealidad: no se pueden interpretar 
m2$class$orgTab    # M CONFUSIÓN:absoluta
m2$class$perTab    # M CONFUSIÓN:relativa
m2$classCV$orgTab    # MC VC absoluta
m2$classCV$perTab    # MC VC relativa
m2$centroids         # Centroides
pred1 = predict(m1, flor)
points(pred1$x, cex = 3)
plot(m2, dimen = 1)

ANÁLISIS COMPON­ENTES PRINCI­PALES

plot(fit, type = 'lines')   # grafico codo - num CP
biplot(fit)   # añadir rownames A parecido B? 
dat$T100 = dat$T100^-1      # si invrs proporcional

fit = princomp(datos, cor = T)
fit$sdev^2    # importancia
cumsum(m$sdev^2/7) # Importancias acumuladas
round(fit$sdev^2/6*100, digits= 2)  # imp rel
fit$loadings  # pesos (weights)
fit$scores    # puntuaciones - valores CP
cor(datos, fit$scores)      # cargas
rowSums(cor(datos, fit$scores[, 1:2])^2)  # comunalidad
1-rowSums(cor(datos, fit$scores[, 1:2])^2)# especifidad

source('prinfact.R')
sol = prinfact(datos, 6)  #num CP
sol$loadings  # Cargas
sol$scores    # puntuaciones
sol$variances # imporancias
sol$eig$vectors[ ,1] # Pesos [CP1]

CORRPLOT
install.packages('corrplot')  # descargar paquete
library(corrplot)             # activar paquete
r = cor(dat)
corrplot(r, method = 'ellipse')

ANÁLISIS COMPON­ENTES PRINCI­PALES

plot(fit, type = 'lines')   # grafico codo - num CP
biplot(fit)   # añadir rownames A parecido B? 
dat$T100 = dat$T100^-1      # si invrs proporcional

fit = princomp(datos, cor = T)
fit$sdev^2    # importancia
cumsum(m$sdev^2/7) # Importancias acumuladas
round(fit$sdev^2/6*100, digits= 2)  # imp rel
fit$loadings  # pesos (weights)
fit$scores    # puntuaciones - valores CP
cor(datos, fit$scores)      # cargas
rowSums(cor(datos, fit$scores[, 1:2])^2)  # comunalidad
1-rowSums(cor(datos, fit$scores[, 1:2])^2)# especifidad

source('prinfact.R')
sol = prinfact(datos, 6)  #num CP
sol$loadings  # Cargas
sol$scores    # puntuaciones
sol$variances # imporancias
sol$eig$vectors[ ,1] # Pesos [CP1]

CORRPLOT
install.packages('corrplot')  # descargar paquete
library(corrplot)             # activar paquete
r = cor(dat)
corrplot(r, method = 'ellipse')