Show Menu
Cheatography

R 1.3.1. Importación y exportación de datos Cheat Sheet by

Lectura de ficheros en R

Acceso a datos en formato RData

res = load("d­ata­set.RD­ata­")
Se cargan como variables res y dataset. Res es simple­mente una referencia y dataset es el conjunto de datos.
save(d­ataset, file = "­dat­ase­t.R­Dat­a")

Import­ación desde Excel

dataset = read.t­abl­e("d­ata­set.cs­v", header = TRUE, sep = "­;", dec = "­,")
dataset = read.c­sv2­("da­tas­et.c­sv­", header = TRUE, sep = "­;", dec = "­,")
Conver­timos el excel a csv y después tenemos dos opciones
 

Acceso a datos de librerías

data(p­ackage = .packa­ges­(al­l.a­vai­lable = TRUE))
Ver todos los datasets dispon­ibles
data(d­ataset)
Cargar uno de los datasets dispon­ibles

Import­ación desde SPSS

librar­y(f­oreign)
dataset = read.s­pss­("da­tas­et.s­av­", to.dat­a.frame = TRUE)
spss.get() del paquete Hmisc
Si hay fechas

Export­ación de datos

write.t­ab­le(­dat­aset, file = "­dat­ase­t.t­xt")
A archivo txt
write.c­sv­2(d­ataset, file = "­dat­ase­t.c­sv")
A archivo csv
save(d­­at­aset, file = "­­da­t­a­se­­t.R­­Da­t­a­")
A archivo RData

Manipu­lación de datos con dplyr

data.f­ram­e(E­tiq­uetas = attr(e­mpl­eados, "­var­iab­le.l­ab­els­"))
Ver inform­ación sobre cada columna si está disponible (no es parte de dplyr)
attr(e­mpl­eados, "­var­iab­le.l­ab­els­") <- NULL
Borrar inform­ación sobre columnas (no pertenece a dplyr)
dataset2 = select­(da­taset1, id, sexo, minoria, tiempemp, salini, salario)
Selecc­ionar únicamente una serie de columnas
dataset2 = select­(da­taset1, id, sexo, noblan­ca=­min­oria, tiempemp, salini, salario)
Selecc­ionar únicamente una serie de columnas y cambiar el nombre de una
select­(em­ple­ados, sexo:s­alario)
Selecc­ionar columnas contenidas entre dos columnas.
select­(em­ple­ados, -(sexo­:sa­lario))
Selecc­ionar todas las columnas menos las contenidas en un rango.
select­(em­ple­ados, starts­_wi­th(­"­s"))
Selecc­ionar solo las columnas cuya etiqueta empiece por s
ends_w­ith(), contai­ns(), matches(), one_of() (ver ?𝚜𝚎𝚕𝚎𝚌𝚝 )
mutate­(em­plea2, incsal = salario - salini, tsal = incsal­/ti­empemp )
Nuevas columnas a partir de otras columnas
filter­(em­plea2, sexo == "­Muj­er", minoria == "­Sí")
Filtrar datos. Sintaxis parecida a subset
arrang­e(e­mplea2, salario)
Organizar datos según una columna. Se cambia el índice de filas.
arrang­e(e­mplea2, desc(s­alini), salario)
Organizar datos según una columna de forma descen­dente, y según la siguiente de forma ascendente si dos datos son iguales. Se cambia el índice de filas.
summar­ise­(em­ple­ados, sal.med = mean(s­ala­rio), n = n())
resumir valores
summar­ise­(gr­oup­_by­(em­ple­ados, sexo, minoria), sal.med = mean(s­ala­rio), n = n())
agrupar casos
empleados %>% filter­(catlab == "­Dir­ect­ivo­") %>% group_­by(­sexo, minoria) %>% summar­ise­(sa­l.med = mean(s­ala­rio), n = n())
empleados %>% select­(sexo, catlab, salario) %>% filter­(catlab != "­Seg­uri­dad­") %>% group_­by(­catlab) %>% mutate­(saldif = salario - mean(s­ala­rio)) %>% ungroup() %>% boxplo­t(s­aldif ~ sexo*d­rop­lev­els­(ca­tlab), data = .) abline(h = 0, lty = 2)
el operador pipe nos permite canalizar la salida de una función a la entrada de otra funciónel operador pipe nos permite canalizar la salida de una función a la entrada de otra función
 

Lectura de archivos de texto

dataset = read.t­abl­e("d­ata­set.tx­t", header­=TRUE, quote=­"­\"")
header: indica si el fichero tiene cabecera (heade­r=TRUE) o no (heade­r=F­ALSE). Por defecto toma el valor header­=FALSE.
sep: carácter separador de columnas que por defecto es un espacio en blanco (sep=""). Otras opciones serían: sep="," si el separador es un "­;", sep="" si el separador es un "", etc.
dec: carácter utilizado en el fichero para los números decimales. Por defecto se establece dec = ".". Si los decimales vienen dados por "­," se utiliza dec = "­,"
read.d­eli­m(file, header = TRUE, sep = "­\t", dec = ".")
read.d­eli­m2(­file, header = TRUE, sep = "­\t", dec = "­,")
Ficheros separados por tabula­dores

Operac­iones con variables

x=cars­$speed
x=cars[,1]
Equiva­lente
cars$v­elo­cidad = cars$speed / 0.62137
Crear una nueva columna a partir de otra
cars = cars[, c("v­elo­cid­ad", "­dis­tan­cia­")]
Eliminar columnas. Funciona también con índices
ii = order(­car­s$dist)
cars2 = cars[ii, ]
Ordenadar filas de un dataframe según los valores de una columna
subset­(fa­mil­ia,­gen­ero­=="m­uje­r"&­cab­ell­o==­"­rub­io")
subset­(cars, speed > 10 & speed < 15 & dist > 45)
elegir una submuestra que cumpla determ­inadas condic­iones
ii = cars$speed > 10 & cars$speed < 15 & cars$dist > 45
cars[ii, ]
Filtrado con índices
it <- which(ii)
cars[it, ]
Mismo resultado. Which devuelve los índices de los elementos que son True
id <- which(!ii)
cars[id, ]
Resultado opuesto
 

Comments

No comments yet. Add yours below!

Add a Comment

Your Comment

Please enter your name.

    Please enter your email address

      Please enter your Comment.

          Related Cheat Sheets

          ggplot2-scatterplots Cheat Sheet
          iGraph Cheat Sheet

          More Cheat Sheets by julenx

          Python 1.1 Numpy Cheat Sheet
          Python pandas Cheat Sheet
          R Cheat Sheet