Show Menu
Cheatography

G8: Modelamiento predictivo para Ciencias de datos Cheat Sheet (DRAFT) by

Analytics es el proceso científico de transformar datos en insights con el propósito de tomar mejores decisiones

This is a draft cheat sheet. It is a work in progress and is not finished yet.

1.1 ANÁLISIS PREDICTIVO

El análisis predictivo consiste en la tecnología que aprende de la experi­encia para predecir el futuro compor­tam­iento de individuos para tomar mejores decisi­ones.
INFORMS Institute for Operations Research and the Management Sciences

1.4 PROCESO KDD

Proceso de Extracción del Conoci­miento conocido como Knowledge Discovery in Databases KDD

1.5 KDD - Selección de los Datos

Explor­ación de los datos : Base Original -> Tablón de Datos (Minable)

Muestra de entren­amiento : Un subcon­junto para entrenar un Modelo
Muestra de validación : Un subcon­junto para probar el modelo entrenado

2.2 CONCEPTOS ESTADI­STICA DESCRI­PTIVA

La población, es el conjunto total de objetos o personas de interés en un estudio. una caract­erí­stica relevante es todos sus elementos deben cumplir con un conjunto predef­inido de caract­erí­sticas.
La Muestra es el subcon­junto de la población, la cual se utiliza para estudiar las caract­erí­sticas de la población en general. Estas deben ser: Aleatorias y repres­ent­ativas.
Variable Aleatoria cualquier caract­erí­stica que tome dos o más valores en una población.

3 PREDICIÓN LINEAL

MCO Minimo cuadrado Ordinario

5.2 EVALUACION DE MODELOS BINARIOS

 

1.2 BIAS O SESGO Y VARIANZA

¿Qué es el Bias?
El bias o sesgo puede ser pensado como un modelo que no ha tenido en cuenta toda la inform­ación disponible en el set de datos, lo que dificulta predic­ciones precisas.

¿Qué es la varianza?
La Varianza es una medida de dispersión que se utiliza para repres­entar la variab­ilidad de un conjunto de datos respecto de la media aritmética de los mismo.

1.6 KDD -Prepr­oce­sam­iento

1. Análisis Descri­ptivo Univariado
Evaluar mediad de tendencia central ( Mediana, Moda), de disper­sión. Los datos null se replazan por 0
2. Análisis Descri­ptivo Multiv­ariado
Análisis de Correl­aci­ones, Gráficos de Disper­sión, Etc.
3. Análisis Descri­ptivo Temporal (de Propor­ciones)
Debe contar con estabi­lidad temporal de propor­ciones.
4. Análisis Descri­ptivo Temporal (de Predic­ción)
Busqca predecir el compor­tam­iento de una variable en partic­ular.

MODELOS KDD - SEMMA - CRISP

2.3 TIPOS DE VARIABLES ALEATORIAS

Variable Cualit­ativa
Ordinal presenta modali­dades no numéricas, en las que existe un orden por Ej: notas en un examen.
Nominal presenta modali­dades no numéricas que no admiten un criterio de orden. Ej: El estado civil, con las siguientes modali­dades: sol, cas, sep, divor y viudo.
Variable Cuanti­tativa
Discreta puede asumir un número contable de valores: Ej: # hijos en una familita.
Continua puede asumir un número incontable de valores. Ej: peso de una persona.

4 REGRESIÓN LOGISTICA

 

1.3 SOBREA­JUSTE E INFRAJUSTE

Overfi­tting
Se produce cuando un modelo modela demasiado bien los datos de entren­ami­ento., por lo que no es capaz de genera­lizar, y cuando le lleguen nuevos datos obtendrá pésimos result­ados.

Underf­itting
Se produce cuando nuestro modelo no es capaz de identi­ficar patrones. Por lo que tendrá siempre
pésimos result­ados.

1.7 KDD - Minería de Datos

Tipos de aprend­izaje de datos

2.1 ESTADÍ­STICA DESCRI­PTIVA

La estadí­stica descri­ptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos, sin extraer conclu­siones (infer­encias) sobre la poblac­ión­/un­iverso a la que perten­ecen.
En términos generales la estadí­stica descri­ptiva busca: Describir o Caract­erizar un Grupo de Datos.

2.4 CONCEPTOS ESTADÍ­STICA DESCRI­PTIVA

5.1 ÁRBOLES DE DECISIÓN