\documentclass[10pt,a4paper]{article} % Packages \usepackage{fancyhdr} % For header and footer \usepackage{multicol} % Allows multicols in tables \usepackage{tabularx} % Intelligent column widths \usepackage{tabulary} % Used in header and footer \usepackage{hhline} % Border under tables \usepackage{graphicx} % For images \usepackage{xcolor} % For hex colours %\usepackage[utf8x]{inputenc} % For unicode character support \usepackage[T1]{fontenc} % Without this we get weird character replacements \usepackage{colortbl} % For coloured tables \usepackage{setspace} % For line height \usepackage{lastpage} % Needed for total page number \usepackage{seqsplit} % Splits long words. %\usepackage{opensans} % Can't make this work so far. Shame. Would be lovely. \usepackage[normalem]{ulem} % For underlining links % Most of the following are not required for the majority % of cheat sheets but are needed for some symbol support. \usepackage{amsmath} % Symbols \usepackage{MnSymbol} % Symbols \usepackage{wasysym} % Symbols %\usepackage[english,german,french,spanish,italian]{babel} % Languages % Document Info \author{mbr} \pdfinfo{ /Title (feuille-2.pdf) /Creator (Cheatography) /Author (mbr) /Subject (Feuille 2 Cheat Sheet) } % Lengths and widths \addtolength{\textwidth}{6cm} \addtolength{\textheight}{-1cm} \addtolength{\hoffset}{-3cm} \addtolength{\voffset}{-2cm} \setlength{\tabcolsep}{0.2cm} % Space between columns \setlength{\headsep}{-12pt} % Reduce space between header and content \setlength{\headheight}{85pt} % If less, LaTeX automatically increases it \renewcommand{\footrulewidth}{0pt} % Remove footer line \renewcommand{\headrulewidth}{0pt} % Remove header line \renewcommand{\seqinsert}{\ifmmode\allowbreak\else\-\fi} % Hyphens in seqsplit % This two commands together give roughly % the right line height in the tables \renewcommand{\arraystretch}{1.3} \onehalfspacing % Commands \newcommand{\SetRowColor}[1]{\noalign{\gdef\RowColorName{#1}}\rowcolor{\RowColorName}} % Shortcut for row colour \newcommand{\mymulticolumn}[3]{\multicolumn{#1}{>{\columncolor{\RowColorName}}#2}{#3}} % For coloured multi-cols \newcolumntype{x}[1]{>{\raggedright}p{#1}} % New column types for ragged-right paragraph columns \newcommand{\tn}{\tabularnewline} % Required as custom column type in use % Font and Colours \definecolor{HeadBackground}{HTML}{333333} \definecolor{FootBackground}{HTML}{666666} \definecolor{TextColor}{HTML}{333333} \definecolor{DarkBackground}{HTML}{5E5E5E} \definecolor{LightBackground}{HTML}{F4F4F4} \renewcommand{\familydefault}{\sfdefault} \color{TextColor} % Header and Footer \pagestyle{fancy} \fancyhead{} % Set header to blank \fancyfoot{} % Set footer to blank \fancyhead[L]{ \noindent \begin{multicols}{3} \begin{tabulary}{5.8cm}{C} \SetRowColor{DarkBackground} \vspace{-7pt} {\parbox{\dimexpr\textwidth-2\fboxsep\relax}{\noindent \hspace*{-6pt}\includegraphics[width=5.8cm]{/web/www.cheatography.com/public/images/cheatography_logo.pdf}} } \end{tabulary} \columnbreak \begin{tabulary}{11cm}{L} \vspace{-2pt}\large{\bf{\textcolor{DarkBackground}{\textrm{Feuille 2 Cheat Sheet}}}} \\ \normalsize{by \textcolor{DarkBackground}{mbr} via \textcolor{DarkBackground}{\uline{cheatography.com/117156/cs/21805/}}} \end{tabulary} \end{multicols}} \fancyfoot[L]{ \footnotesize \noindent \begin{multicols}{3} \begin{tabulary}{5.8cm}{LL} \SetRowColor{FootBackground} \mymulticolumn{2}{p{5.377cm}}{\bf\textcolor{white}{Cheatographer}} \\ \vspace{-2pt}mbr \\ \uline{cheatography.com/mbr} \\ \end{tabulary} \vfill \columnbreak \begin{tabulary}{5.8cm}{L} \SetRowColor{FootBackground} \mymulticolumn{1}{p{5.377cm}}{\bf\textcolor{white}{Cheat Sheet}} \\ \vspace{-2pt}Not Yet Published.\\ Updated 16th February, 2020.\\ Page {\thepage} of \pageref{LastPage}. \end{tabulary} \vfill \columnbreak \begin{tabulary}{5.8cm}{L} \SetRowColor{FootBackground} \mymulticolumn{1}{p{5.377cm}}{\bf\textcolor{white}{Sponsor}} \\ \SetRowColor{white} \vspace{-5pt} %\includegraphics[width=48px,height=48px]{dave.jpeg} Measure your website readability!\\ www.readability-score.com \end{tabulary} \end{multicols}} \begin{document} \raggedright \raggedcolumns % Set font size to small. Switch to any value % from this page to resize cheat sheet text: % www.emerson.emory.edu/services/latex/latex_169.html \footnotesize % Small font. \begin{multicols*}{2} \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 4 - Corréaltions}} \tn % Row 0 \SetRowColor{LightBackground} \mymulticolumn{2}{x{8.4cm}}{Regression Linéaire} \tn % Row Count 1 (+ 1) % Row 1 \SetRowColor{white} B0 et B1 dans le graphique & b0 : la valeur prédite de Y quand X vaut 0 \{\{nl\}\} b1 : \# d'unités d'augmentation de Y quand X augmente d'une unité \tn % Row Count 7 (+ 6) % Row 2 \SetRowColor{LightBackground} Les 4 tableaux de sortie & 1. var introduites et éliminés 2. Coefficient 3. ANOVA 4. Récap des moèles \tn % Row Count 11 (+ 4) % Row 3 \SetRowColor{white} \mymulticolumn{2}{x{8.4cm}}{Coefficients} \tn % Row Count 12 (+ 1) % Row 4 \SetRowColor{LightBackground} On réalise un test T pour chaque \seqsplit{paramètreparamètre} & H0 de b1 et b2 = 0 \{\{nl\}\} n'indique pas si le modèle = bon \{\{nl\}\} Nous dit seulement si b0 et b1 sont différents de 0 \tn % Row Count 18 (+ 6) % Row 5 \SetRowColor{white} \mymulticolumn{2}{x{8.4cm}}{ANOVA} \tn % Row Count 19 (+ 1) % Row 6 \SetRowColor{LightBackground} Pq réaliser ANOVA & Une ANOVA est réalisée pour tester si le modèle explique mieux les données que le modèle de base: la moyenne des valeurs de la variable Y. Ce modèle de base reflète l'hypothèse nulle de cette ANOVA \tn % Row Count 30 (+ 11) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 4 - Corréaltions (cont)}} \tn % Row 7 \SetRowColor{LightBackground} H0 de l'ANOVA & Meilleur prédicteur de Y = moyenne de y \{\{nl\}\} h0 = moy de Y \{\{nl\}\} calcul SC (pire qu'on puisse faire)\{\{nl\}\} Correspond à la somme des carrés total (SCT) , tout ce que le modèle doit expliquer \tn % Row Count 10 (+ 10) % Row 8 \SetRowColor{white} Hypothèse alternative de l'ANOVA & On utilise meilleures valeurs des éstimateurs b0 et b1 \{\{nl\}\} On SC du modèle (SCRésid) \{\{nl\}\} ce que le modèle n'a pas réussi à expliquer \tn % Row Count 18 (+ 8) % Row 9 \SetRowColor{LightBackground} SCM (régression) & SCT - SCR (ce qu'il y a a expliquer - ce que le modèle n'a pas réussi à expliquer) \tn % Row Count 23 (+ 5) % Row 10 \SetRowColor{white} ANOVA test stat F & Le résultat du test F permet de rejeter le modèle de base (𝑌 = 𝑌barre) au profit du modèle alternatif avec une probabilité d'erreur inférieure à 0.1\% si H est vraie \tn % Row Count 32 (+ 9) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 4 - Corréaltions (cont)}} \tn % Row 11 \SetRowColor{LightBackground} Degrés de liberté (k= prédict) & 𝑑𝑙l total= 𝑁 − 1, ddl résid = N -1 -K, ddl modèle = k \tn % Row Count 4 (+ 4) % Row 12 \SetRowColor{white} Problème ANOVA & Le test est basé sur les carrés moyens (CM) du modèle et des résiduels \{\{nl\}\}Or, les CMR dépend de la taille de l'échantillon \{\{nl\}\} + N est grand, plus CMR diminue , plus CMR petit, plus F= grand (facile rejet H0) \tn % Row Count 16 (+ 12) % Row 13 \SetRowColor{LightBackground} Taille d'effet & Pour calculer R2, on calcule la proportion de la SCT expliquée par le modèle (SCM) - Le modèle permet d'expliquer approximativement 20 \% de la variabilité totale dans le modèle de base (𝑌 = 𝑌I). \tn % Row Count 27 (+ 11) % Row 14 \SetRowColor{white} Prob de R2 & + k est grand par rapport à N, + on risque d'expliquer de la variabilité correspondant à de l'erreur d'échantillonnage, plutôt que d'expliquer un effet réel dans la population.- Donc, + k est grand par rapport à N, - l'explication des données se généralisera à l'ensemble de la population. \tn % Row Count 43 (+ 16) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 4 - Corréaltions (cont)}} \tn % Row 15 \SetRowColor{LightBackground} R2 ajusté & Plus k est grand par rapport à N, plus la valeur de 𝑅ajust est petite (corrigée) \tn % Row Count 5 (+ 5) % Row 16 \SetRowColor{white} \mymulticolumn{2}{x{8.4cm}}{Corrélation} \tn % Row Count 6 (+ 1) % Row 17 \SetRowColor{LightBackground} Corr & r tjrs positif dans tab (signe de b1) - racine de r2 \tn % Row Count 9 (+ 3) % Row 18 \SetRowColor{white} Cov donne 2 infos & 1. Sens d'inclinaison 2. degré d'aplatissement du nuage de point \tn % Row Count 13 (+ 4) % Row 19 \SetRowColor{LightBackground} Corrélation règle 2 probs de la cova & 1. Plus intuitif (score z) 2. quantifiable \tn % Row Count 16 (+ 3) \hhline{>{\arrayrulecolor{DarkBackground}}--} \end{tabularx} \par\addvspace{1.3em} \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple}} \tn % Row 0 \SetRowColor{LightBackground} \mymulticolumn{2}{x{8.4cm}}{Regression linéaire multiple} \tn % Row Count 1 (+ 1) % Row 1 \SetRowColor{white} Représentation graphique & b0 : val prédite de y quand x1 et x2 =0 ; 𝑏1 correspond au nombre d'unités d'augmentation de la valeur prédite Y qnd la valeur du prédicteur X1 augmente d'une unité et que les valeurs des autres prédicteurs ne changent pas. \tn % Row Count 13 (+ 12) % Row 2 \SetRowColor{LightBackground} SCR (pente y pred et y) & on a deux variables indépendantes qui ont chacunes un pente : permet de prédire la variable y (deux droites)  \tn % Row Count 19 (+ 6) % Row 3 \SetRowColor{white} SCT & Formule \{\{nl\}\} . \tn % Row Count 20 (+ 1) % Row 4 \SetRowColor{LightBackground} \mymulticolumn{2}{x{8.4cm}}{On peut ensuite faire test F et Rdeux} \tn % Row Count 21 (+ 1) % Row 5 \SetRowColor{white} SCM & Ce qui a été expliqué  = var qu'il y ' a à expliqué – ce qu'il reste a expliquer une fois qu'on a le modèle  \tn % Row Count 28 (+ 7) % Row 6 \SetRowColor{LightBackground} Absence de Multicolinéarité & On ne veut pas que les prédicteurs soient trop fortement corrélés \{\{nl\}\}Si les prédicteurs sont fortement corrélés, alors deux variables deviennent interchangeables et il devient difficile d'interpréter le modèle final (On souhaite avoir rX1,X2 \textless{} 0.9) \tn % Row Count 42 (+ 14) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple (cont)}} \tn % Row 7 \SetRowColor{LightBackground} Corrélation simple & proportion dela variance totale en {\bf{Y}} expliqué par x (ce que x explique / tout ce qu'il y a à expliquer) \{\{nl\}\} on oublie que x2 existe \tn % Row Count 8 (+ 8) % Row 8 \SetRowColor{white} Corrélation semi partielle & proportion de la variance totale en y expliquée seulement par x (on eleve seulement la partie exlpiquée -{}-point commun avec la simple = ce qu'il y a a expliquer ) \tn % Row Count 17 (+ 9) % Row 9 \SetRowColor{LightBackground} Corrélation partielle & proportion de la variance en Y qui n'est pas expliquée par les autres prédicteurs mais qui est explqiuée par X1 (Partielle est tjrs plus grande ou égale à  semi partielle  \tn % Row Count 26 (+ 9) % Row 10 \SetRowColor{white} \mymulticolumn{2}{x{8.4cm}}{On regarde les types de corrélations3 pour eviter d'avoir des données redondantes } \tn % Row Count 28 (+ 2) % Row 11 \SetRowColor{LightBackground} différence entre les coefficients standardisés et non standardisés. & Un coefficient non standardisé (ex. b1) permet de prédire le nombre d'unités de variation de la variable dépendante (y) pour une variation d'une unité de la variable indépendante (x1). Par exemple, la note prédite à l'examen final monte de 10 points par heure d'étude (mesures brutes utilisées). Un coefficient standardisé (ex. b1\_standardisé) permet de prédire le nombre d'écarts types de variation de la variable dépendante (y) pour une variation d'un écart type de la variable indépendante (x1). Par exemple, la note prédite à l'examen final monte de 2 écarts types par augmentation d'une écart type d'heures d'études (mesures exprimées en écarts à la moyenne divisés par l'écart type). \tn % Row Count 64 (+ 36) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple (cont)}} \tn % Row 12 \SetRowColor{LightBackground} il peut avoir une grande correlation entre x1 et x2, mais la partie de y qui recoupe les deux n'est pas la même  & il peut avoir une grande correlation entre x1 et x2, mais la partie de y qui recoupe les deux n'est pas la même (correlation simple et semi = similaire ) \{\{nl\}\}semi partielle nous permet de savoir si les deux expliquent la même chose ou pas (comparer avec simple) \tn % Row Count 14 (+ 14) % Row 13 \SetRowColor{white} Stats de colinéarité & VIF et tolérance \tn % Row Count 16 (+ 2) % Row 14 \SetRowColor{LightBackground} Pour Calculer VIF1 : & 1. On calcule SCT à partir du modèle 𝑋1 =xbarre 2. On trouve le modèle qui prédit le mieux X1 à partir des autres prédicteurs 3.On calcule SCR1. 4. On calcule SCM1 = SCT – SCR 5. On calcule 𝑅2 6.VIF (La tolérance est simplement 1 sur VIF \tn % Row Count 29 (+ 13) % Row 15 \SetRowColor{white} \mymulticolumn{2}{x{8.4cm}}{Si on a seulement 2 prédicteurs : Ø Alors, 𝑅;6 correspond simplement au carré de la corrélation bivariée.} \tn % Row Count 32 (+ 3) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple (cont)}} \tn % Row 16 \SetRowColor{LightBackground} Criètre VIF & on veut une tolerance plus garnde que 0,2 alors un r2 inférieur à 0.8 on veut pas etre capable d'expliquer plus de 80\% de la variabilité de x1 en fonction des autres variables (On souhaite avoir chaque VIF \textless{} 5 (i.e. une Tolérance \textgreater{} 0.2).Sinon, on doit considérer éliminer le prédicteur correspondant.) \tn % Row Count 16 (+ 16) % Row 17 \SetRowColor{white} Colinéarité : Si un prédicteur peut être très bien prédit par les autres prédicteurs, alors il est inutile. & Il ne permet pas d'augmenter substantiellement SCModèle dans la prédiction de Y. Il augmente le nombre de degrés de libertés (k) de SCMModèle dans la prédiction de Y. DONC... CMModèle diminue !Et F aussi \tn % Row Count 27 (+ 11) % Row 18 \SetRowColor{LightBackground} \mymulticolumn{2}{x{8.4cm}}{Scores extrêmes} \tn % Row Count 28 (+ 1) % Row 19 \SetRowColor{white} Résidus standardisés & les scores z des résidus (i.e. de la variance non expliquée par le modèle) \{\{nl\}\} Les scores appelés « extrêmes », sont « extrêmes » dans la distribution des résidus (y et ybarre) \tn % Row Count 38 (+ 10) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple (cont)}} \tn % Row 20 \SetRowColor{LightBackground} Les « Valeurs influentes » (« leverage ») & un score élevé signifie que la donnée a le potentiel d'avoir une influence importante sur l'estimation des paramètres du modèle. Les scores appelés « valeurs influentes », ont en réalité simplement le POTENTIEL d'avoir une influence importante sur l'estimation des paramètres du modèle... \tn % Row Count 16 (+ 16) % Row 21 \SetRowColor{white} La distance de Cook & reflète l'influence réelle d'une observation sur l'estimation des paramètres. \tn % Row Count 21 (+ 5) % Row 22 \SetRowColor{LightBackground} \mymulticolumn{2}{x{8.4cm}}{L'objectif principal est de pouvoir généraliser les conclusions de l'analyse à la population.} \tn % Row Count 23 (+ 2) % Row 23 \SetRowColor{white} cook & Si le modèle estimé est trop sensible à certaines données de notre échantillon (ex. Distance de Cook élevée) , alors le modèle risque de varier beaucoup d'un échantillon à l'autre. On dira alors que le modèle est instable et est peu reproductible (et ne se généralise donc pas bien à la population). \tn % Row Count 39 (+ 16) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple (cont)}} \tn % Row 24 \SetRowColor{LightBackground} Zrésid et val influentes & Si un score est extrême (extrême dans les résidus) ou a un potentiel d'influence (extrêmedans les prédicteurs), alors la donnée semble peu représentative de la population. \{\{nl\}\} Si Dcook est néanmoins faible alors que le score est extrême (extrême dans les résidus) et/ou potentiellement influent (extrême dans les prédicteurs), alors garder le score risque d'augmenter artificiellement la puissance de l'analyse en augmentant le N à l'aide d'une valeur non représentative de la population. \tn % Row Count 26 (+ 26) % Row 25 \SetRowColor{white} Score nn extreme et non influent & Semble représentatif mais ...Si Dcook est néanmoins élevé alors que le score n'est ni extrême (non extrême dans les résidus) ni potentiellement influent (non extrême dans les prédicteurs), alors garder le score risque de rendre le modèle estimé instable et peu reproductible (et donc peu généralisable à la population de toute manière). \tn % Row Count 44 (+ 18) \end{tabularx} \par\addvspace{1.3em} \vfill \columnbreak \begin{tabularx}{8.4cm}{x{4 cm} x{4 cm} } \SetRowColor{DarkBackground} \mymulticolumn{2}{x{8.4cm}}{\bf\textcolor{white}{Cours 5 - Regression linéaire multiple (cont)}} \tn % Row 26 \SetRowColor{LightBackground} \mymulticolumn{2}{x{8.4cm}}{Les scores extrêmes (résidus) et les données avec potentiel d'influence (prédicteurs) posent un risque pour la représentativité du modèle et donc pour la généralisation des conclusions. Les données d'influence réelle (ex. distance de Cook) posent un risque pour la stabilité du modèle et donc pour la généralisation des conclusions.} \tn % Row Count 8 (+ 8) % Row 27 \SetRowColor{white} On doit donc toujours vérifier si le modèle avec plus de prédicteurs augmente « significativement » le R2. & Pour ce faire, on utilise un test F de la « Variation du R2 ». \tn % Row Count 14 (+ 6) \hhline{>{\arrayrulecolor{DarkBackground}}--} \end{tabularx} \par\addvspace{1.3em} % That's all folks \end{multicols*} \end{document}