Cheatography
https://cheatography.com
Analytics es el proceso científico de transformar datos en insights con el propósito de tomar mejores decisiones
This is a draft cheat sheet. It is a work in progress and is not finished yet.
1.1 ANÁLISIS PREDICTIVO
El análisis predictivo consiste en la tecnología que aprende de la experiencia para predecir el futuro comportamiento de individuos para tomar mejores decisiones. INFORMS Institute for Operations Research and the Management Sciences
1.4 PROCESO KDD
Proceso de Extracción del Conocimiento conocido como Knowledge Discovery in Databases KDD
1.5 KDD - Selección de los Datos
Exploración de los datos : Base Original -> Tablón de Datos (Minable)
Muestra de entrenamiento : Un subconjunto para entrenar un Modelo
Muestra de validación : Un subconjunto para probar el modelo entrenado
2.2 CONCEPTOS ESTADISTICA DESCRIPTIVA
La población, es el conjunto total de objetos o personas de interés en un estudio. una característica relevante es todos sus elementos deben cumplir con un conjunto predefinido de características.
La Muestra es el subconjunto de la población, la cual se utiliza para estudiar las características de la población en general. Estas deben ser: Aleatorias y representativas.
Variable Aleatoria cualquier característica que tome dos o más valores en una población.
3 PREDICIÓN LINEAL
MCO Minimo cuadrado Ordinario
5.2 EVALUACION DE MODELOS BINARIOS
|
|
1.2 BIAS O SESGO Y VARIANZA
¿Qué es el Bias?
El bias o sesgo puede ser pensado como un modelo que no ha tenido en cuenta toda la información disponible en el set de datos, lo que dificulta predicciones precisas.
¿Qué es la varianza?
La Varianza es una medida de dispersión que se utiliza para representar la variabilidad de un conjunto de datos respecto de la media aritmética de los mismo.
1.6 KDD -Preprocesamiento
1. Análisis Descriptivo Univariado |
Evaluar mediad de tendencia central ( Mediana, Moda), de dispersión. Los datos null se replazan por 0 |
2. Análisis Descriptivo Multivariado |
Análisis de Correlaciones, Gráficos de Dispersión, Etc. |
3. Análisis Descriptivo Temporal (de Proporciones) |
Debe contar con estabilidad temporal de proporciones. |
4. Análisis Descriptivo Temporal (de Predicción) |
Busqca predecir el comportamiento de una variable en particular. |
MODELOS KDD - SEMMA - CRISP
2.3 TIPOS DE VARIABLES ALEATORIAS
Variable Cualitativa
Ordinal presenta modalidades no numéricas, en las que existe un orden por Ej: notas en un examen.
Nominal presenta modalidades no numéricas que no admiten un criterio de orden. Ej: El estado civil, con las siguientes modalidades: sol, cas, sep, divor y viudo.
Variable Cuantitativa
Discreta puede asumir un número contable de valores: Ej: # hijos en una familita.
Continua puede asumir un número incontable de valores. Ej: peso de una persona.
|
|
1.3 SOBREAJUSTE E INFRAJUSTE
Overfitting
Se produce cuando un modelo modela demasiado bien los datos de entrenamiento., por lo que no es capaz de generalizar, y cuando le lleguen nuevos datos obtendrá pésimos resultados.
Underfitting
Se produce cuando nuestro modelo no es capaz de identificar patrones. Por lo que tendrá siempre
pésimos resultados.
1.7 KDD - Minería de Datos
Tipos de aprendizaje de datos
2.1 ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos, sin extraer conclusiones (inferencias) sobre la población/universo a la que pertenecen.
En términos generales la estadística descriptiva busca: Describir o Caracterizar un Grupo de Datos.
2.4 CONCEPTOS ESTADÍSTICA DESCRIPTIVA
|