Del I - Dataanalys och Regression, 7.5 hp

Flashy time series image

I momentet ingår insamling, bearbetning, visualisering och sammanfattning av data i programspråket R. En stor del av momentet behandlar sambands- och regressionsanalys som utmynnar i metoder för prediktion.

Förkortningen SDM står för kursboken Stats: Data and Models 5:e upplagan, global edition.

Under vissa föreläsningar länkar vi till Extramaterial. Det är material som inte krävs för att klara kursen, men som den nyfikne kan läsa för att få en djupare förståelse.

Föreläsningar

Föreläsning 1 - Introduktion.
Läs: SDM Kapitel 1 | Slides, del 1 | Slides, del 2
Testa dina kunskaper: Algebra | Summor och produkter

Föreläsning 2 - Hantera och beskriva data.
Läs: SDM Kapitel 2 | Slides
Interaktivt: widget - histogram
Testa dina kunskaper: Centralvärden | Kvartiler | Varians | Standardavvikelse
innehåll Variabeltyper • Frekvenstabeller • Fördelningar • Outliers • Centralmått • Spridningsmått • Percentiler
Föreläsning 3 - Samband mellan kategoriska variabler.
Läs: SDM Kapitel 3 | Slides
Testa dina kunskaper: Marginalfördelningar | Betingade fördelningar
innehåll Korstabeller • Betingade fördelningar av kategoriska variabler • Test av hypotes om oberoende genom simulering • Samband och kausalitet
Föreläsning 4 - Jämföra fördelningar. Tidsserier. Transformationer.
Läs: SDM Kapitel 4 | Slides
innehåll Numeriska variabler betingade på kategoriska variabler • Grafisk representation av tidsserier • Transformering med logaritmer
Föreläsning 5 - Standardiserade variabler och normalfördelningen.
Läs: SDM Kapitel 5 | Slides
Extramaterial: Hantera dataset med dplyr
Testa dina kunskaper: Z-värden | Normalfördelningstabellen
innehåll Standardiserade variabler • Normalfördelningen • Beräkningar med normalfördelningen • Normalfördelningsantagandet
Föreläsning 6 - Samband mellan numeriska variabler. Korrelation.
Läs: SDM Kapitel 6 | Slides
innehåll Spridningsdiagram • Korrelationskoefficienten • Korrelation och kausalitet
Föreläsning 7 - Enkel linjär regression.
Läs: SDM Kapitel 7 | Slides
Extramaterial: widget - linjär regression utan population | widget - linjär regression med population
innehåll Den enkla linjära regressionsmodellen • Tolkning av regressionskoefficienter • Prediktion • Minsta kvadratmetoden • Signifikans • Modellantaganden och residualanalys • R-kvadrat • Analys av variansen
Föreläsning 8 - Transformationer. Multipel linjär regression.
Läs: SDM Kapitel 8, 9.1-9-4 | Slides
Extramaterial: widget - icke-linjär regression
innehåll Transformation av variabler för regression • Multipel linjär regression • Adjusted R-squared
Föreläsning 9 - Dummyvariabler i regressionsmodeller. Modellval.
Läs: SDM 9.5 | Slides 
innehåll Dummyvariabler • Modellval • Överanpassning och underanpassning • Träningsdata och testdata • Korsvalidering
Föreläsning 10 - Stickprov och populationer. Observationsstudier och experiment.
Läs: SDM kapitel 10.1-10.3 och 11.1-11.2 | Slides 
innehåll Inferens • Populationer och stickprov • Bias • Slumpvisa variationer • Simple random sampling • Populationsparametrar och statistika • Observationsstudier • Experiment

Räkneövningar

Övningarna i kursboken Stats: Data and Models (SDM) hänvisas till med kapitelnummer följt av övningsnummer.

Övning 1 - Beskrivande statistik.
Uppgifter: SDM 2.1, 2.2, 2.6, 2.7, 2.11, 2.15, 2.16, 2.17, 2.20, 2.21, 2.24.

Övning 2 - Samband mellan kategoriska variabler. Transformationer.
Uppgifter: SDM 3.1, 3.3, 3.5, 3.6, 3.7, 3.9, 3.25, 3.39, 3.41, 4.1, 4.3, 4.14, 4.17, 4.45.

Övning 3 - Standarisering och normalmodellen.
Uppgifter: SDM 5.1, 5.2, 5.4, 5.5, 5.8, 5.10, 5.14, 5.16, 5.17, 5.30, 5.42, 5.48.

Övning 4 - Samband mellan numeriska variabler. Korrelation och enkel linjär regression.
Uppgifter: SDM 6.2, 6.3, 6.5, 6.6, 6.9, 6.14, 6.20, 7.1, 7.2, 7.3, 7.4, 7.5, 7.7, 7.9, 7.11, 7.13, 7.15, 7.19, 7.23, 7.27, 7.52.

Övning 5 - Multipel linjär regression.
Uppgifter: SDM Kapitel 8.18, 8.20, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.9, 9.11, 9.14, 9.16, 9.22, 9.23, 9.28.

Övning 6 - Repetition.
Repetitionstillfälle.

Datorlaborationer

Datorlaboration 1 - Introduktion till R.
Uppgifter: html

Datorlaboration 2 - Beskrivande statistik och visualisering i R.
Uppgifter: html | quarto

Datorlaboration 3 - Samband mellan två kategoriska variabler. Samband mellan en kategorisk och en numerisk variabel. Tidsserier.
Uppgifter: html | quarto

Datorlaboration 4 - Korrelation. Enkel och multipel linjär samt icke-linjär regression.
Uppgifter: html | quarto

Inlämningsuppgift

Inlämningsuppgift 1.
html | quarto