Show Menu
Cheatography

Feuille 2 Cheat Sheet (DRAFT) by

This is a draft cheat sheet. It is a work in progress and is not finished yet.

Cours 4 - Corréa­ltions

Regression Linéaire
B0 et B1 dans le graphique
b0 : la valeur prédite de Y quand X vaut 0
b1 : # d'unités d'augm­ent­ation de Y quand X augmente d'une unité
Les 4 tableaux de sortie
1. var introd­uites et éliminés 2. Coeffi­cient 3. ANOVA 4. Récap des moèles
Coeffi­cients
On réalise un test T pour chaque paramè­tre­par­amètre
H0 de b1 et b2 = 0
n'indique pas si le modèle = bon
Nous dit seulement si b0 et b1 sont différents de 0
ANOVA
Pq réaliser ANOVA
Une ANOVA est réalisée pour tester si le modèle explique mieux les données que le modèle de base: la moyenne des valeurs de la variable Y. Ce modèle de base reflète l’hypo­thèse nulle de cette ANOVA
H0 de l'ANOVA
Meilleur prédicteur de Y = moyenne de y
h0 = moy de Y
calcul SC (pire qu'on puisse faire)
Correspond à la somme des carrés total (SCT) , tout ce que le modèle doit expliquer
Hypothèse altern­ative de l'ANOVA
On utilise meilleures valeurs des éstima­teurs b0 et b1
On SC du modèle (SCRésid)
ce que le modèle n'a pas réussi à expliquer
SCM (régre­ssion)
SCT - SCR (ce qu'il y a a expliquer - ce que le modèle n'a pas réussi à expliquer)
ANOVA test stat F
Le résultat du test F permet de rejeter le modèle de base (𝑌 = 𝑌barre) au profit du modèle alternatif avec une probab­ilité d’erreur inférieure à 0.1% si H est vraie
Degrés de liberté (k= prédict)
𝑑𝑙l total= 𝑁 − 1, ddl résid = N -1 -K, ddl modèle = k
Problème ANOVA
Le test est basé sur les carrés moyens (CM) du modèle et des résiduels
Or, les CMR dépend de la taille de l’écha­ntillon
+ N est grand, plus CMR diminue , plus CMR petit, plus F= grand (facile rejet H0)
Taille d'effet
Pour calculer R2, on calcule la proportion de la SCT expliquée par le modèle (SCM) - Le modèle permet d’expl­iquer approx­ima­tiv­ement 20 % de la variab­ilité totale dans le modèle de base (𝑌 = 𝑌I).
Prob de R2
+ k est grand par rapport à N, + on risque d’expl­iquer de la variab­ilité corres­pondant à de l’erreur d’écha­nti­llo­nnage, plutôt que d’expl­iquer un effet réel dans la popula­tion.- Donc, + k est grand par rapport à N, - l’expl­ication des données se généra­lisera à l’ensemble de la popula­tion.
R2 ajusté
Plus k est grand par rapport à N, plus la valeur de 𝑅ajust est petite (corrigée)
Corrél­ation
Corr
r tjrs positif dans tab (signe de b1) - racine de r2
Cov donne 2 infos
1. Sens d'incl­inaison 2. degré d'apla­tis­sement du nuage de point
Corrél­ation règle 2 probs de la cova
1. Plus intuitif (score z) 2. quanti­fiable
 

Cours 5 - Regression linéaire multiple

Regression linéaire multiple
Représ­ent­ation graphique
b0 : val prédite de y quand x1 et x2 =0 ; 𝑏1 correspond au nombre d’unités d’augm­ent­ation de la valeur prédite Y qnd la valeur du prédicteur X1 augmente d’une unité et que les valeurs des autres prédic­teurs ne changent pas.
SCR (pente y pred et y)
on a deux variables indépe­ndantes qui ont chacunes un pente : permet de prédire la variable y (deux droites) 
SCT
Formule
.
On peut ensuite faire test F et Rdeux
SCM
Ce qui a été expliqué  = var qu’il y ‘ a à expliqué – ce qu’il reste a expliquer une fois qu’on a le modèle 
Absence de Multic­oli­néarité
On ne veut pas que les prédic­teurs soient trop fortement corrélés
Si les prédic­teurs sont fortement corrélés, alors deux variables deviennent interc­han­geables et il devient difficile d’inte­rpréter le modèle final (On souhaite avoir rX1,X2 < 0.9)
Corrél­ation simple
proportion dela variance totale en Y expliqué par x (ce que x explique / tout ce qu'il y a à expliquer)
on oublie que x2 existe
Corrél­ation semi partielle
proportion de la variance totale en y expliquée seulement par x (on eleve seulement la partie exlpiq­uée­ --­point commun avec la simple = ce qu’il y a a expliq­uer )
Corrél­ation partielle
proportion de la variance en Y qui n'est pas expliquée par les autres prédic­teurs mais qui est explqiuée par X1 (Partielle est tjrs plus grande ou égale à  semi partielle 
On regarde les types de corrél­ations3 pour eviter d’avoir des données redond­antes 
différence entre les coeffi­cients standa­rdisés et non standa­rdisés.
Un coeffi­cient non standa­rdisé (ex. b1) permet de prédire le nombre d'unités de variation de la variable dépendante (y) pour une variation d'une unité de la variable indépe­ndante (x1). Par exemple, la note prédite à l'examen final monte de 10 points par heure d'étude (mesures brutes utilis­ées). Un coeffi­cient standa­rdisé (ex. b1_sta­nda­rdisé) permet de prédire le nombre d'écarts types de variation de la variable dépendante (y) pour une variation d'un écart type de la variable indépe­ndante (x1). Par exemple, la note prédite à l'examen final monte de 2 écarts types par augmen­tation d'une écart type d'heures d'études (mesures exprimées en écarts à la moyenne divisés par l'écart type).
il peut avoir une grande correl­ation entre x1 et x2, mais la partie de y qui recoupe les deux n’est pas la même 
il peut avoir une grande correl­ation entre x1 et x2, mais la partie de y qui recoupe les deux n’est pas la même (­cor­rel­ation simple et semi = simila­ire )
semi partielle nous permet de savoir si les deux expliquent la même chose ou pas (comparer avec simple)
Stats de coliné­arité
VIF et tolérance
Pour Calculer VIF1 :
1. On calcule SCT à partir du modèle 𝑋1 =xbarre 2. On trouve le modèle qui prédit le mieux X1 à partir des autres prédic­teurs 3.On calcule SCR1. 4. On calcule SCM1 = SCT – SCR 5. On calcule 𝑅2 6.VIF (La tolérance est simplement 1 sur VIF
Si on a seulement 2 prédic­teurs : Ø Alors, 𝑅;6 correspond simplement au carré de la corrél­ation bivariée.
Criètre VIF
on veut une tolerance plus garnde que 0,2 alors un r2 inférieur à 0.8 on veut pas etre capable d’expl­iquer plus de 80% de la variab­ilité de x1 en fonction des autres variables (On souhaite avoir chaque VIF < 5 (i.e. une Tolérance > 0.2).S­inon, on doit considérer éliminer le prédicteur corres­pon­dant.)
Coliné­arité : Si un prédicteur peut être très bien prédit par les autres prédic­teurs, alors il est inutile.
Il ne permet pas d’augm­enter substa­nti­ell­ement SCModèle dans la prédiction de Y. Il augmente le nombre de degrés de libertés (k) de SCMModèle dans la prédiction de Y. DONC... CMModèle diminue !Et F aussi
Scores extrêmes
Résidus standa­rdisés
les scores z des résidus (i.e. de la variance non expliquée par le modèle)
Les scores appelés « extrêmes », sont « extrêmes » dans la distri­bution des résidus (y et ybarre)
Les « Valeurs influentes » (« leverage »)
un score élevé signifie que la donnée a le potentiel d’avoir une influence importante sur l’esti­mation des paramètres du modèle. Les scores appelés « valeurs influentes », ont en réalité simplement le POTENTIEL d’avoir une influence importante sur l’esti­mation des paramètres du modèle...
La distance de Cook
reflète l’infl­uence réelle d’une observ­ation sur l’esti­mation des paramè­tres.
L’objectif principal est de pouvoir généra­liser les conclu­sions de l’analyse à la popula­tion.
cook
Si le modèle estimé est trop sensible à certaines données de notre échant­illon (ex. Distance de Cook élevée) , alors le modèle risque de varier beaucoup d’un échant­illon à l’autre. On dira alors que le modèle est instable et est peu reprod­uctible (et ne se généralise donc pas bien à la popula­tion).
Zrésid et val influentes
Si un score est extrême (extrême dans les résidus) ou a un potentiel d’infl­uence (extrê­medans les prédic­teurs), alors la donnée semble peu représ­ent­ative de la popula­tion.
Si Dcook est néanmoins faible alors que le score est extrême (extrême dans les résidus) et/ou potent­iel­lement influent (extrême dans les prédic­teurs), alors garder le score risque d’augm­enter artifi­cie­llement la puissance de l’analyse en augmentant le N à l’aide d’une valeur non représ­ent­ative de la popula­tion.
Score nn extreme et non influent
Semble représ­entatif mais ...Si Dcook est néanmoins élevé alors que le score n’est ni extrême (non extrême dans les résidus) ni potent­iel­lement influent (non extrême dans les prédic­teurs), alors garder le score risque de rendre le modèle estimé instable et peu reprod­uctible (et donc peu généra­lisable à la population de toute manière).
Les scores extrêmes (résidus) et les données avec potentiel d’infl­uence (prédi­cteurs) posent un risque pour la représ­ent­ativité du modèle et donc pour la généra­lis­ation des conclu­sions. Les données d’infl­uence réelle (ex. distance de Cook) posent un risque pour la stabilité du modèle et donc pour la généra­lis­ation des conclu­sions.
On doit donc toujours vérifier si le modèle avec plus de prédic­teurs augmente « signif­ica­tiv­ement » le R2.
Pour ce faire, on utilise un test F de la « Variation du R2 ».