Del I - Dataanalys och Regression, 7.5 hp

I momentet ingår insamling, bearbetning, visualisering och sammanfattning av data i programspråket R. En stor del av momentet behandlar sambands- och regressionsanalys som utmynnar i metoder för prediktion.
Förkortningen SDM står för kursboken Stats: Data and Models 5:e upplagan, global edition.
Under vissa föreläsningar länkar vi till Extramaterial. Det är material som inte krävs för att klara kursen, men som den nyfikne kan läsa för att få en djupare förståelse.
Föreläsningar
Föreläsning 1 - Introduktion.
Läs: SDM Kapitel 1 | Slides
Testa dina kunskaper: Algebra | Summor och produkter
Läs: SDM Kapitel 2 | Slides
Interaktivt: widget - histogram
Testa dina kunskaper: Centralvärden | Kvartiler | Varians | Standardavvikelse
innehåll
Variabeltyper • Frekvenstabeller • Fördelningar • Outliers • Centralmått • Spridningsmått • PercentilerLäs: SDM Kapitel 3 | Slides
Testa dina kunskaper: Marginalfördelningar | Betingade fördelningar
innehåll
Korstabeller • Betingade fördelningar av kategoriska variabler • Test av hypotes om oberoende genom simulering • Samband och kausalitetLäs: SDM Kapitel 4 | Slides
Testa dina kunskaper: the Data Game
innehåll
Numeriska variabler betingade på kategoriska variabler • Grafisk representation av tidsserier • Transformering med logaritmerLäs: SDM Kapitel 5 | Slides
Extramaterial: Hantera dataset med dplyr
Testa dina kunskaper: Z-värden, övning 1 | Z-värden, övning 2 | Normalfördelningen | Normalfördelningstabellen, övning 1 | Normalfördelningstabellen, övning 2
innehåll
Standardiserade variabler • Normalfördelningen • Beräkningar med normalfördelningen • NormalfördelningsantagandetLäs: SDM Kapitel 6 | Slides
innehåll
Spridningsdiagram • Korrelationskoefficienten • Korrelation och kausalitetLäs: SDM Kapitel 7 | Slides
Extramaterial: widget - linjär regression utan population | widget - linjär regression med population
innehåll
Den enkla linjära regressionsmodellen • Tolkning av regressionskoefficienter • Prediktion • Minsta kvadratmetoden • Signifikans • Modellantaganden och residualanalys • R-kvadrat • Analys av variansenLäs: SDM Kapitel 8, 9.1-9-4 | Slides
Extramaterial: widget - icke-linjär regression
innehåll
Transformation av variabler för regression • Multipel linjär regression • Adjusted R-squaredLäs: SDM 9.5 | Slides
innehåll
Dummyvariabler • Modellval • Överanpassning och underanpassning • Träningsdata och testdata • KorsvalideringLäs: SDM kapitel 10.1-10.3 och 11.1-11.2 | Slides
innehåll
Inferens • Populationer och stickprov • Bias • Slumpvisa variationer • Simple random sampling • Populationsparametrar och statistika • Observationsstudier • ExperimentRäkneövningar
Övningarna i kursboken Stats: Data and Models (SDM) hänvisas till med kapitelnummer följt av övningsnummer.
Övning 1 - Beskrivande statistik.
Uppgifter: SDM 2.1, 2.2, 2.6, 2.7, 2.11, 2.15, 2.16, 2.17, 2.20, 2.21, 2.24, Extra övningar.
Övning 2 - Samband mellan kategoriska variabler. Transformationer.
Uppgifter: SDM 3.1, 3.3, 3.5, 3.6, 3.7, 3.9, 3.25, 3.39, 3.41, 4.1, 4.3, 4.14, 4.17, 4.45.
Övning 3 - Standarisering och normalmodellen.
Uppgifter: SDM 5.1, 5.2, 5.4, 5.5, 5.8, 5.10, 5.14, 5.16, 5.17, 5.30, 5.42, 5.48.
Övning 4 - Samband mellan numeriska variabler. Korrelation och enkel linjär regression.
Uppgifter: SDM 6.2, 6.3, 6.5, 6.6, 6.9, 6.14, 6.20, 7.1, 7.2, 7.3, 7.4, 7.5, 7.7, 7.9, 7.11, 7.13, 7.15, 7.19, 7.23, 7.27, 7.52.
Övning 5 - Multipel linjär regression.
Uppgifter: SDM Kapitel 8.18, 8.20, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.9, 9.13, 9.14, 9.15, 9.16, 9.22, 9.28.
Övning 6 - Repetition.
Repetitionstillfälle.
Datorlaborationer
Datorlaboration 1 - Introduktion till R.
Uppgifter: html
Datorlaboration 2 - Beskrivande statistik och visualisering i R.
Uppgifter: html | quarto
Datorlaboration 3 - Samband mellan två kategoriska variabler. Samband mellan en kategorisk och en numerisk variabel. Tidsserier.
Uppgifter: html | quarto
Datorlaboration 4 - Korrelation. Enkel och multipel linjär samt icke-linjär regression.
Uppgifter: html | quarto