Show Menu
Cheatography

Librerías Python - Resultados de Cirrhosis Cheat Sheet (DRAFT) by

El presente cheat sheet, tiene la finalidad de presentar un análisis de librerías de python usados en un notebook relacionado a la cirrosis.

This is a draft cheat sheet. It is a work in progress and is not finished yet.

Librerías Python Usadas

Pandas
Pandas es una librería de Python que se utiliza para la manipu­lación y análisis de datos.
Matplotlib
Sirve para crear visual­iza­ciones y gráficos de datos.
Seaborn
Propor­ciona varias funciones para person­alizar los gráficos.
Lightgbm
Utilizado para la catego­riz­ación, clasif­icación y muchas otras tareas de aprend­izaje automá­tico, en las que es necesario maximizar o minimizar una función objetivo mediante la técnica de gradient boosting, que consiste en combinar clasif­ica­dores sencillos.
Scikit Learn
Herram­ientas para prepro­cesar datos, las funciones para evaluar modelos y los mecanismos para ajustar los parámetros de cada modelo.

Funciones Usadas de Pandas

head()
Devuelve las n primeras filas del DataFrame df.
info()
Devuelve inform­ación (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.
shape()
Devuelve una tupla con el número de filas y columnas del DataFrame df.
isnull()
Devuelve una estructura con las mismas dimens­iones que la que se cede como argumento sustit­uyendo cada valor por el booleano True si el corres­pon­diente elemento es un valor nulo, y por el booleano False en caso contrario.
value_­cou­nts()
Obtener cuantos datos tenemos de algo en especí­fico.
map()
Se utiliza para asignar valores de dos series que tienen una columna similar.
 

Funciones Usadas de Seaborn

countp­lot()
Utilizado para mostrar los recuentos de observ­aciones en cada contenedor categórico mediante barras.
heatmap()
Permite crear mapas de calor o gráficos de correl­ación en Python con seaborn.

Funciones Usadas de Lightbgm

dataset()
Carga data en la librería.
train()
Seteo de data para entren­ami­ento.
predict()
Seteo de data para predic­ción.

Funciones Usadas de Matplotlib

figure()
Elemento base sobre el que se construyen todos los gráficos
title()
Seteo de un titulo para la gráfica a mostrar.
show()
Mostrar figura.

Funciones Usadas de Scikit Learn

fit_tr­ans­form()
Ajustar a los datos y luego transf­orm­arlos.
train_­tes­t_s­plit()
Divida matrices o matrices en subcon­juntos de pruebas y trenes aleato­rios.
Random­For­est­Cla­ssifier
Un bosque aleatorio es un metaes­timador que ajusta una serie de clasif­ica­dores de árboles de decisión en varias submue­stras del conjunto de datos y utiliza promedios para mejorar la precisión predictiva y controlar el sobrea­juste.
predic­t_p­roba()
Propor­ciona un método predic­t_proba para regresión logística, que devuelve las probab­ili­dades predichas para cada clase.

Análisis del Dataset

Cantidad de Registros:
7905
Cantidad de Columnas:
20
Tipos de datos de las columnas:
float6­4(10), int64(3), object(7)
Inform­ación Nula Encont­rada:
0 registros.
 

Tareas de EDA aplicadas al Dataset

1.-
Verifi­cación de Columnas de Inform­ación Existentes
2.-
Validación de tipos de datos de los registros.
3.-
Compro­bación del set de datos global.
4.-
Análisis de la distri­bución de datos por la columna Estado.
5.-
Verifi­cación de datos nulos en el dataset.
6.-
Transf­orm­ación de datos categó­ricos a binarios.
7.-
Crear visual­ización de correl­ación de data.
8.-
Limpieza de columna de id.
9.-
Config­uración de data para entren­amiento y predic­ción.
10.-
Regresión de datos.
11.-
Aplicación de entren­amiento y predicción de datos.
12.-
Creación de un archivo plano de los resultados obtenidos.

Distri­bución de Estados - Matplotlib

Gráfico de Correl­ación de Datos - Seaborn

Link de los Recursos

Kaggle Link:
Inform­ación General del Dataset:
El conjunto de datos se generó a partir de un modelo de aprend­izaje profundo entrenado en el conjunto de datos de Predicción de superv­ivencia del paciente con cirrosis.