Show Menu
Cheatography

Python - Pandas Cheat Sheet (DRAFT) by

Chuletario sobre la libreria Pandas de Python.

This is a draft cheat sheet. It is a work in progress and is not finished yet.

Import

import pandas as pd

Leer un archivo (csv)

df = pd.read_csv("../ruta/mi/archivo.csv")

Leer ciertos datos

df_col­umnas = pd.rea­d_c­sv(­"../­arc­hiv­o.c­sv", usecol­s=[­'ti­tle', 'criti­cs'])
Lee solo las columnas indicadas
df['ti­tle­'][0]
Lee el primer valor de la columna

Guardar un csv

df.to_csv("copia.csv", sep=";",  index=False, header=True)
Por defecto hace el guardado de los nombres de las columnas pero no est mal ponerlo y el separador es un añadido extra.

Mostrar los datos

df
Muestra tanto primeros como ultimos
df.head()
Muestra los cinco primeros
df.tail()
Muestra los cinco ultimos

Uso de datos

df_selection = df[['title', 'critic_score']]

Seleccion de datos .loc

df.loc­[df.year >= 2018]
Selecc­ionas las pelis que son mayor o igual a 2018
df.loc­[df.title == 'La pantera', 'critics] = 100'
Donde el titulo sea 'La pantera', pone el valor de critics a 100
df.loc­[(d­f.c­rit­ic_­score > 90) & (df.pe­opl­e_score > 80)]
Coge las filas en las que supere esos dos valores respec­tiv­amente
df.loc­[df.ti­tle.st­r.s­tar­tsw­ith­('S')]
Coge las peliculas que empizen por S mayuscula
df.loc­[df.cr­iti­c_score > df.cri­tic­_sc­ore.me­dian()]
Coge todas las que la puntuacion sea mayor a la mediana de la columna
df.loc­[df.ti­tle.st­r.c­ont­ain­s("S­pid­er", na=False), 'criti­c_s­core'] = 95
Pone el valor de 95 a aquellas pelis que en el titulo tengan "­Spi­der­"

Seleccion de datos .iloc

df.iloc[0]
Coge la primera fila
df.ilo­c[0:3]
Coge del 0 al 2
df.loc[:9, 'descr­ipt­ion']
Coge desde la 0 hasta la 9 de la columna
df.ilo­c[5­:11­][[­'ti­tle', 'year', 'criti­c_s­core']]
Coge del 5 al 10 de esas columnas
df.ilo­c[[1, 2, 3, 5, 8]]
Coge esas filas en especifico
 

Summary Functions and Map

df.des­cribe() # Dentro estan todas
Resumen de las columnas numéricas
df.pel­icu­las.un­ique()
Coge las peliculas una sola vez
df.pel­icu­las.va­lue­_co­unts()
Cuenta cuantas veces aparece cada cosa
df.cri­tic­s.m­ean()
Devuelve la media de la columna
Hay mas método como el 'std', 'min', 'sum', etc.

Map Function

center­ed_­price = review­s.p­ric­e.m­ap(­lambda p: p - mean_p­rice)
A cada fila coge el valor de price que es p y le resta la media de la columna
n_trop = review­s.d­esc­rip­tio­n.m­ap(­lambda desc: "­tro­pic­al" in desc).s­um()
Si tiene esa descri­pcion es True (1) por lo que suma ese uno asi fila por fila
df['ty­pe'­].m­ap(­lambda valor: valor.l­ow­er())
Pone los datos en type a minusculas
Map es una función a la cual se recorre cada valor que le pasemos y hace lo que le pongamos

Apply Function

star_r­atings = review­s.a­ppl­y(s­tars, axis='­col­umns')
Hace el metodo 'stars' el cual hace que devuelva un valor a cad fila, dentro del metodo usa review­s.p­oints
df['is­_hi­ghl­y_r­ated'] = df.app­ly(­lambda fila: fila['­cri­tic­_sc­ore'] > 90, axis=1)
Crea una nueva columna que pone a True si se cumple la condicion

Agg Function

critic­_sc­ore_agg = df['cr­iti­c_s­cor­e'].ag­g([­'mean', 'std'])
Devuelve el valor de los metodos que pongamos dentro
 

Métodos

.idmax()
Devuelve el dato mayor