Del I - Dataanalys och Regression, 7.5 hp
I momentet ingår insamling, bearbetning, visualisering och sammanfattning av data i programspråket R. En stor del av momentet behandlar sambands- och regressionsanalys som utmynnar i metoder för prediktion.
Förkortningen SDM står för kursboken Stats: Data and Models 5:e upplagan, global edition.
Under vissa föreläsningar länkar vi till Extramaterial
. Det är material som inte krävs för att klara kursen, men som den nyfikne kan läsa för att få en djupare förståelse.
Föreläsningar
Föreläsning 1 - Introduktion.
Läs: SDM Kapitel 1 | Slides, del 1 | Slides, del 2
Testa dina kunskaper: Algebra | Summor och produkter
Läs: SDM Kapitel 2 | Slides
Interaktivt: widget - histogram
Testa dina kunskaper: Centralvärden | Kvartiler | Varians | Standardavvikelse
innehåll
Variabeltyper • Frekvenstabeller • Fördelningar • Outliers • Centralmått • Spridningsmått • PercentilerLäs: SDM Kapitel 3 | Slides
Testa dina kunskaper: Marginalfördelningar | Betingade fördelningar
innehåll
Korstabeller • Betingade fördelningar av kategoriska variabler • Test av hypotes om oberoende genom simulering • Samband och kausalitetLäs: SDM Kapitel 4 | Slides
Testa dina kunskaper: the Data Game
innehåll
Numeriska variabler betingade på kategoriska variabler • Grafisk representation av tidsserier • Transformering med logaritmerLäs: SDM Kapitel 5 | Slides
Extramaterial: Hantera dataset med dplyr
Testa dina kunskaper: Z-värden, övning 1 | Z-värden, övning 2 | Normalfördelningen | Normalfördelningstabellen, övning 1 | Normalfördelningstabellen, övning 2
innehåll
Standardiserade variabler • Normalfördelningen • Beräkningar med normalfördelningen • NormalfördelningsantagandetLäs: SDM Kapitel 6 | Slides
innehåll
Spridningsdiagram • Korrelationskoefficienten • Korrelation och kausalitetLäs: SDM Kapitel 7 | Slides
Extramaterial: widget - linjär regression utan population | widget - linjär regression med population
innehåll
Den enkla linjära regressionsmodellen • Tolkning av regressionskoefficienter • Prediktion • Minsta kvadratmetoden • Signifikans • Modellantaganden och residualanalys • R-kvadrat • Analys av variansenLäs: SDM Kapitel 8, 9.1-9-4 | Slides
Extramaterial: widget - icke-linjär regression
innehåll
Transformation av variabler för regression • Multipel linjär regression • Adjusted R-squaredLäs: SDM 9.5 | Slides
innehåll
Dummyvariabler • Modellval • Överanpassning och underanpassning • Träningsdata och testdata • KorsvalideringLäs: SDM kapitel 10.1-10.3 och 11.1-11.2 | Slides
innehåll
Inferens • Populationer och stickprov • Bias • Slumpvisa variationer • Simple random sampling • Populationsparametrar och statistika • Observationsstudier • ExperimentRäkneövningar
Övningarna i kursboken Stats: Data and Models (SDM) hänvisas till med kapitelnummer följt av övningsnummer.
Övning 1 - Beskrivande statistik.
Uppgifter: SDM 2.1, 2.2, 2.6, 2.7, 2.11, 2.15, 2.16, 2.17, 2.20, 2.21, 2.24, Extra övningar.
Övning 2 - Samband mellan kategoriska variabler. Transformationer.
Uppgifter: SDM 3.1, 3.3, 3.5, 3.6, 3.7, 3.9, 3.25, 3.39, 3.41, 4.1, 4.3, 4.14, 4.17, 4.45.
Övning 3 - Standarisering och normalmodellen.
Uppgifter: SDM 5.1, 5.2, 5.4, 5.5, 5.8, 5.10, 5.14, 5.16, 5.17, 5.30, 5.42, 5.48.
Övning 4 - Samband mellan numeriska variabler. Korrelation och enkel linjär regression.
Uppgifter: SDM 6.2, 6.3, 6.5, 6.6, 6.9, 6.14, 6.20, 7.1, 7.2, 7.3, 7.4, 7.5, 7.7, 7.9, 7.11, 7.13, 7.15, 7.19, 7.23, 7.27, 7.52.
Övning 5 - Multipel linjär regression.
Uppgifter: SDM Kapitel 8.18, 8.20, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.9, 9.13, 9.14, 9.15, 9.16, 9.22, 9.28.
Övning 6 - Repetition.
Repetitionstillfälle.
Datorlaborationer
Datorlaboration 1 - Introduktion till R.
Uppgifter: html
Datorlaboration 2 - Beskrivande statistik och visualisering i R.
Uppgifter: html | quarto
Datorlaboration 3 - Samband mellan två kategoriska variabler. Samband mellan en kategorisk och en numerisk variabel. Tidsserier.
Uppgifter: html | quarto
Datorlaboration 4 - Korrelation. Enkel och multipel linjär samt icke-linjär regression.
Uppgifter: html | quarto