Show Menu
Cheatography

Análisis exploratorio de datos en R Cheat Sheet by

Análisis exploratorio de datos en R

Tablas y gráficos de frecue­ncias

table(x)
tabla de frecue­ncias absolutas
names(­tab­le(x))
nombres de las columnas de una tabla unidim­ens­ional
z=fact­or(x, levels­=1:7)
table(z)
Si x contiene números que no sean 7, hacemos que el 7 también aparezca en la tabla de frecue­ncias.
table(­x)[4]
Referirnos a tabla de frecue­ncias por el índice
table(­x)[­"­5"]
Referirnos a tabla de frecue­ncias por el nombre
prop.t­abl­e(t­abl­e(x))
Tabla de frecue­ncias relativas
names(­whi­ch(­tab­le(­x)==3))
Elementos cuya frecuencia = 3
names(­whi­ch(­tab­le(­x)=­=ma­x(t­abl­e(x))))
Moda

Otros

attach­(em­ple­ados)
attr(e­mpl­eados, "­var­iab­le.l­ab­els­") = NULL
Eliminar etiquetas de columnas

Gráfico de puntos

dotcha­rt(­sal­ario, xlab='­sal­arios')
stripc­har­t(s­ala­rio­~sexo, method­='j­itter')
Salario según sexo

Medidas de tendencia central

as.num­eri­c(n­ame­s(w­hic­h(t­abl­e(e­dad­es)­==m­ax(­tab­le(­eda­des­)))))
Moda
mean(e­dades)
Media
median­(ed­ades)
Mediana

Medidas de posición

quanti­le(x, 0.1)
Percentil
quanti­le(­sal­ario)
Todos los cuartiles
quanti­le(­sal­ario, probs=­c(0.25­,0.5­,0.75))
quanti­le(­sal­ario, probs=­seq­(0.1, 0.9, 0.1))
Todos los deciles
summary(x)
R dispone de 9 métodos diferentes para calcular cuantiles, que se pueden especi­ficar dentro de quantile con el parámetro type. En la mayoría de las ocasiones se obtiene el mismo resultado con todos los métodos, pero no siempre. Para saber en detalle las fórmulas que usa quantile para cada valor de type. El método que usa R por defecto si no especi­ficamos otro es type=7.

Medidas de dispersión

diff(r­ang­e(x))
Rango
IQR(x)
Rango interc­uat­ílico
var(x)
Varianza
sd(x)
Desviación típica
cv=sd(­con­sum­o)/­abs­(me­an(­con­sumo))
Coefic­iente de variación. nos permite, entre otras cosas, comparar disper­siones de variables medidas en diferentes unidades
summar­y(s­ubs­et(­iris, Specie­s==­"­set­osa­", c("S­epa­l.L­eng­th",­"­Pet­al.L­en­gth­")))
 

Tablas bidime­nsi­onales de frecue­ncias

Respue­sta­s=c­("No­"­,"No­"­,"Sí­"­,"No­"­,"Sí­"­,"No­"­,"No­"­,"Sí­")
Sexo=c­("M",­"­M","M­"­,"H",­"­H","H­"­,"H",­"­H")
table(­Sex­o,R­esp­uestas)
Tabla bidime­nsional de frecue­ncias. El primer conjunto de valores es las filas y el segundo las columnas.
t(tabl­e(R­esp­ues­tas­,Sexo))
Interc­ambiar filas por columnas
table(­Res­pue­sta­s,S­exo­)[1,2]
table(­Res­pue­sta­s,S­exo­)["N­o","M­"]
Formas de referirnos a una tabla bidime­nsional
prop.t­abl­e(t­abl­e(S­exo­,Re­spu­estas), margin=1)
Frecue­ncias relativas marginales por filas
prop.t­abl­e(t­abl­e(S­exo­,Re­spu­estas), margin=2)
Frecue­ncias relativas marginales por columnas
librar­y(g­models)
CrossT­abl­e(Sexo, Respue­stas, prop.c­his­q=F­ALSE)
tabla de frecue­ncias absolutas y las tres tablas de frecue­ncias relativas de dos variables
colSum­s(t­abl­e(S­exo­,Re­spu­estas))
Sumar columnas
rowSum­s(p­rop.ta­ble­(ta­ble­(Se­xo,­Res­pue­stas)))
Sumar filas en tabla de frecue­ncias relativas

Diagrama de barras

barplo­t(t­abl­e(S­exo­_Ger), col=c(­"­lig­htb­lue­"­,"pi­nk"), main="T­itl­e")
Va alternando los colores indicados
barplo­t(p­rop.ta­ble­(ta­ble­(Re­spu­est­as)), main="D­iagrama de barras de frecue­ncias relati­vas­")
barplo­t(t­abl­e(x), horiz=­TRUE)
Diagrama horizontal
barplo­t(t­abl­e(S­exo­,Re­spu­estas))
Dibujará una barra dentro de otra (el total) con distinto color según la primera variable
barplo­t(t­abl­e(S­exo­,Re­spu­estas), beside­=TRUE)
Dibuja una barra al lado de otra
legend.te­xt=TRUE
Mostrar leyenda
legend.te­xt=­c("A­"­,"B")
Cambiar texto leyenda
pie(ta­ble­(Re­spu­estas), main="D­iagrama circul­ar")
Diagrama circular
par(mfrow = c(1, 3)
Matriz de 3 filas donde se mostarán las gráficas
tt <- table(­cut­(ex­pprev, breaks=5))
tt <- table(­cut­(ex­pprev, breaks­=c(­0,4­0,8­0,1­50,­250­,400)))
barplo­t(t­t,x­lab­="Ex­per­iencia previa­", main="C­ate­gor­ización en 5 clases­")
Uso con variables continuas
 

Tablas multid­ime­nsi­onales de frecue­ncias

table(­­Se­x­o­,R­­esp­­ue­s­t­as­­,Pais)
ftable­­(S­e­x­o,­­Res­­pu­e­s­ta­­s,Pais)
Tabla de frecue­­ncias agrupando con tercera variable (la primera opción hace tres tablas, la segunda hace una)
ftable­­(S­e­x­o,­­Res­­pu­e­s­ta­­s,Pais, col.va­­rs­=­c­("S­­exo­­"­,­"­Re­­spu­­es­t­a­s"))
especi­­ficar qué variables queremos que aparezcan como filas o como columnas
table(­­Se­x­o­,R­­esp­­ue­s­t­as­­,Pa­­is­)­[­"­H",­­"­­Sí­"­,­"­­Ita­­li­a­"]
table(­­Se­x­o­,R­­esp­­ue­s­t­as­­,Pais)[ , ,"It­­al­i­a­"]
table(­­Se­x­o­,R­­esp­­ue­s­t­as­­,Pa­­is­)­[­"­M", ,"It­­al­i­a­"]
referirnos a una entrada, o a una subtabla
prop.t­­ab­l­e­(t­­abl­­e(­S­e­xo­­,Re­­sp­u­e­st­­as,­­Pais), margin=3)
Tabla de frecue­­ncias relativas margia­­nales. Con axis = 3, vemos la frecuencia dentro de la tercera variable.
prop.t­­ab­l­e­(t­­abl­­e(­S­e­xo­­,Re­­sp­u­e­st­­as,­­Pais), margin­­=c­(­1,3))
De esta forma se suma según la primera variable dentro de cada país.
prop.t­­ab­l­e­(f­­tab­­le­(­S­ex­­o,R­­es­p­u­es­­tas­­,P­ais))
Otra forma de mostrar la tabla de frecue­­ncias relativas
apply(­­ta­b­l­e(­­Sex­­o,­R­e­sp­­ues­­ta­s­,­Pais), MARGIN­­=c­(­1,3), FUN=sum)
apply(­­ta­b­l­e(­­Sex­­o,­R­e­sp­­ues­­ta­s­,­Pais), MARGIN=2, FUN=sum)
Aplicación de funciones

Histograma

fruta=­c(8­,11­,11­,8,­9,1­0,1­6,6­,12­,19­,13­,6,­9,1­3,1­5,9­,12­,16­,8,­7,1­4,1­1,1­5,6,14, 14,17,­11,­6,9­,10­,19­,12­,11­,12­,6,­15,­16,­16,­12,­13,­12,­12,­8,1­7,1­3,7­,12­,14,12)
plot(d­ens­ity­(fr­uta), type="l­", xlab="N­úmero de árbole­s", ylab="D­ens­ida­d", main="D­ensidad de la variable \"fr­uta­\"")
repres­entar datos continuos (variables numéricas)
 

Comments

No comments yet. Add yours below!

Add a Comment

Your Comment

Please enter your name.

    Please enter your email address

      Please enter your Comment.

          Related Cheat Sheets

          ggplot2-scatterplots Cheat Sheet
          iGraph Cheat Sheet
          Introduction to Regression in R Cheat Sheet

          More Cheat Sheets by julenx

          Python 1.1 Numpy Cheat Sheet
          Python pandas Cheat Sheet
          R Cheat Sheet