Show Menu
Cheatography

Examen 1 Cheat Sheet by

Cours 1

Paramè­tres, Estimation de paramè­tres, Erreur type, Intervalle de confiance et test staiti­suqes
Modèle = prédiction de la donnée
composé de paramètres (ex :b0) - caract­ériser la population
Estimer des paramètres
1. Erreur totale
On fait la différence entre la vrai valeure et celle qu'on estime (y-ychap)
prob : valeurs + et - s'annulent
2. Somme des carrés (SC)
Donne la valeur la plus représ­ent­ative de l'écha­ntillon
la valeur de b0 qui minime SC = moyenne
3. Carré moyen (donne la représ­ent­ativité face à l'écha­nti­llon)
Carré moyen est l'équi­valent de la variance ( s carré)
Écart type = racine de la variance (donc =s)
deg de lib = N - # de paramètres
Erreur­-type (SE)
représ­ent­ativité de notre estimateur face à la population
+ N augmente , + écart-type surestime l'erreur type
Variablité dans la distri­bution normale
Mais la variabili dans la distri­bution d'écha­nti­llo­nnage
Intervalle de confiance
Distri­bution de probab­ilité
Distri­bution de probab­ilité totale
Distri­bution d'écha­nti­llo­nnage = distri­bution des probab­lités d'obtenir tous les échant­illons possibles (Obtenir toutes les moyennes possibles)
À quoi ressemble une distri­bution d'écha­nti­llo­nnage
Théorie des erreurs
1. # de causes = très grand
2. chq cause peut réussi ou échouer
3.prob­abilité de succès ou échec n'est pas êtres (0 ou1)
À quoi sert SE
Nous savons maintenant que si la distri­bution d’écha­nti­llo­nnage est distribuée normal­ement, alors connaître l’erreur type nous permet de cibler un intervalle de valeurs à l’inté­rieur duquel 95% des moyennes d’écha­nti­llons se trouveront
Aussi, si on ne connaît pas la valeur réelle de la moyenne de la popula­tion, on sait alors néanmoins que si l’on tirait une infinité d’écha­nti­llons, 95 % de ces échant­illons nous permet­traient de calculer un intervalle de confiance incluant la valeur réelle de la moyenne de la population
Test d'hypo­thèse
Pour contrer à l'erreur d'écha­nti­llo­nnage on fait stats infére­nti­elles (induc­tives)
Test stats infére­nti­elles qui sont dites ''indu­cti­ves''
induction vs deduction
Induction : on part des observ­ations pour déterminer c’est quoi la loi générale
Déduction : partir d'une loi générale pour déduire ce que je vais observer
Erreur de type 1
Rejetter H0 alors qu'elle est vraie.
pourquoi onf ait un test bilatéral et non unilatéral si on peut pas s’appuyer sur littér­ature : 
unilatéral a droite et a gauche : l’erreur s’addi­tionne et on fini avec une erreur à 10% (zone de rejet) au lieu de 5% (bi­latéral est plus conser­vateur)
 

Cours 3

Interv­alles
1. autour de l’esti­mateur alors permet de savoir la représ­ent­ativité de L’erreur type 
2. intervalle de confiance autour h0 pour tests statis­tiques
3.29 = 0.001
1. Petit échant­illon : ok car très rare (20 particip alors 0.02)
Mais si grand chantillon va falloir que j'augmente 3.29
selon N on choisit un score Z
Impact test T
Si N diminue , puissance diminue
Si on ramène une val extreme à 3.29 , on augmente la puissance stat (car diminue l'écar­t-type) - On rejette H0 plus facilement
Inspection graphique des scores extrêmes : Histog­ramme et boite à moustache
Bas de la boite: 1er quartile
Haut de la boîte : 3e quartile
Moustache du bas = Minimum (excluant valeurs aberrantes/extrêmes)
Moustache du haut = Maximum (excluant valeurs aberra­nte­s/e­xtr­êmes)
Cercle (°) = Donnée aberrante (distance minimum de 1.5 boîtes de la médiane)
Astérisque (*) : val extreme (distance minimum de 3 boîtes de la médiane)
Scores Z dans un distri­bution normale
Dans une distri­bution normale, on s’attend à avoir
: A. 0.1% des données dont 𝑧 >3.29
B.1.0% des données dont 𝑧 > 2.58
C. 5.0% des données dont 𝑧 > 1.96
Comment gérer les données extrêmes ?
1. Supprimer la donnée 2. Suprimer le partic­ipant 3. Remplacer par une valeur qui correspond à 3.29 (score z)
Puissance statis­tique
Probab­ilité de rejeter H0 si Ho est fausse
Comment les données extrêmes influe­ncent l'erreur type (et tests statis­tique)s
1. Surestimer l'erreur type
2. Erreur type = bruit , donc diminue la puissance du test statis­tique (rejet H0 plus difficile)
Plus mon test t est fort...
plus c’est fort , plus jepeux rejetter facile­ment  PLUS T EST PUISSANT PLUS C’EST FACILE DE DÉPASSER LA VALEUR CRITIQUE
2.39 < 2.78 ⇒ On ne rejette pas H0 𝑐𝑎𝑟 𝑜𝑛 𝑎𝑢𝑟𝑎𝑖𝑡 𝑢𝑛𝑒 𝑝𝑟𝑜𝑏𝑎𝑏­𝑖𝑙𝑖𝑡é 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟𝑒 à 5% 𝑑𝑒𝑠𝑒𝑡𝑟­𝑜𝑚𝑝­𝑒𝑟𝑠𝑖𝐻0 𝑒𝑠𝑡𝑣𝑟𝑎𝑖𝑒.
Données manquantes
Éliminer de l’écha­ntillon les sujets ayant des données manqua­ntes. 2 Éliminer d’une analyse les sujets ayant des données manqua­ntes. 3 Remplacer les données manquantes par la moyenne de l’écha­nti­llon.
Qu'est-ce qui se passe si je remplace une donnée manquante par la moy
1. ADiminue ecart-­type, SE diminue, score du test augmente
Postulats de base
1. Additivité et linéarité
2. Normalité : importance pour estimation des paramètres
SI la distri­bution des fréquences dans l’écha­ntillon est normale, ALORS la somme des carrés de l’erreur (SC) permettra d’estimer les valeurs des paramètres de manière optimale
2.1 : Normalité (Asymétrie et aplati­sse­ment)
Asymétrie : Si asymétrie = 0 => parfai­tement symétrique Ø Si asymétrie < 0 => asymétrie négative (queue plus longue à gauche) Ø Si asymétrie > 0 => asymétrie positive (queue plus longue à droite)
Si kurtosis = 0 => aplati­ssement normal (mésok­urt­ique) Si kurtosis < 0 => aplati­ssement négatif (platy­kur­tique) => variance élevée Si kurtosis > 0 => aplati­ssement positif (lepto­kur­tique) => variance faible
2.4 : Normalité ( test de normalité)
H0 : Asymétrie = 0, Kurtosis = 0
Problèmes: SI la taille de l’écha­ntillon est faible, ALORS le test est rarement assez puissant pour détecter la non-no­rma­lité.
SI la taille de l’écha­ntillon est très grande, ALORS le test est trop sensible et rejette l’hypo­thèse nulle (la normalité) trop facile­ment. Ø Or, le théorème central limite suggère de toute façon qu’avec un grand échant­illon, la distri­bution d’écha­nti­llo­nnage, elle, est normale. En général, on n’utilise donc pas ces tests (ex. Test de Kolmog­oro­v-S­mir­nov).
Prob avec hétésceda
Biaise estimation de l'erreur type
 

Comments

No comments yet. Add yours below!

Add a Comment

Your Comment

Please enter your name.

    Please enter your email address

      Please enter your Comment.

          Related Cheat Sheets

          Introduction to Regression in R Cheat Sheet