Statistik och dataanalys I, 15 hp

Datorlaboration 6 - Konfidensintervall, hypotesttest och centrala gränsvärdessatsen

Mattias Villani

Published

October 15, 2023

Introduktion och viktig förberedande information

I den här datorlabben kommer vi att arbeta med konfidensintervall och hypotestest

Installera paket

Den här labben förutsätter inga installerade paket.

Skapa mapp för labben

Skapa en mapp Lab6 i din kursmapp SDA1. Ladda ner Quarto-filen för denna lab genom att högerklicka här och välj ‘Spara länk’ eller något likande från menyn som dyker upp. Spara filen i din Lab6 mapp. Öppna Quarto-filen i RStudio och fortsätt med denna laboration direkt i Quarto-dokumentet, där du också fyller i svaren på dina laborationsövningar.

Looping as a way of life

I den här uppgiften kommer ni behöva upprepa beräkningar ett stort antal gånger. Då använder vi loopar, framförallt den s k for-loopen. Här är en enkel loop som beräknar kvadraten av alla tal mellan 1 och 10 och sparar resultaten i en vektor kvadrater:

kvadrater = rep(0, 10) # Skapar vektor med nollor där vi sen sparar varje kvadrat
for (i in 1:10){
  kvadrater[i] = i^2
}
kvadrater

 [1]   1   4   9  16  25  36  49  64  81 100

Vi kan göra precis samma loop på lite annorlunda sätt:

kvadrater = rep(0, 10) 
min_loop_vektor = 1:10
for (i in min_loop_vektor){
  kvadrater[i] = i^2
}

Notera att R alltså kan loop:a över vilken vektor som helst. R läser for-loopen ovan som ’upprepa kommandot print(i^2) för alla värden på i tagna från vektorn min_loop_vektor och spara resultatet i den i:te positionen i vektorn kvadrater.

Genom att använda seq() funktionen kan vi t ex loop:a över värdena 0.1, 0.2,…, 0.9, 1 så här:

min_loop_vektor = seq(0.1, 1, by = 0.1)
for (i in min_loop_vektor){
  print(i^2)
}

[1] 0.01
[1] 0.04
[1] 0.09
[1] 0.16
[1] 0.25
[1] 0.36
[1] 0.49
[1] 0.64
[1] 0.81
[1] 1

Men hur gör vi om vi vill spara dessa kvadrater i en vektor kvadrater som vi gjorde ovan? Vi kan inte längre använda loop-variabeln i för tala om för R att placera kvadraten i^2 på den i:te positionen i kvadraten. Variabeln i räknar ju inte längre från 1 till 10! Den räknar ju 0.1, 0.2,…, 0.9, 1.

Lösningen är att skapa ytterligare en variabel som håller reda på var i vektorn kvadrater som resultat ska sparas. Jag kallar den variabel count, men den kan heta vad som helst.

kvadrater = rep(0, 10)
min_loop_vektor = seq(0, 1, by = 0.1)
count = 0
for (i in min_loop_vektor){
  count = count + 1
  kvadrater[count] = i^2
}
kvadrater

 [1] 0.00 0.01 0.04 0.09 0.16 0.25 0.36 0.49 0.64 0.81 1.00

Notera hur jag först satte count till 0 innan loopen och hur jag sen inne i loopen ökade count med ett i varje upprepning.

Ok, nu testar vi den här kunskapen på ett lite, lite mer avancerat problem. Säg att vi vill simulera från samplingfördelningen för stickprovsandelen $\hat p$ med data från modellen

\[ X_1,X_2,\ldots,X_n \overset{iid}{\sim}\mathrm{Bernoulli}(p) \]

där p=0.3 och stickprovsstorleken n=100. Vi gör detta genom att simulera 1000 olika stickprov från modellen. För varje stickprov med n=100 observationer beräknar vi andelen $\hat p$ och sparar denna andel i en lång vektor. Sen plottar vi fördelningen av dessa 1000 st värden på $\hat p$ med ett histogram. Here we go!

p = 0.3              # andelen i populationen/modellen
nsim = 1000          # vi vill simulera 1000 olika stickprov
n = 100              # varje stickprov består av 100 observationer.
phats = rep(0, nsim) # skapar vektor där andelen (phat) i varje stickprov sparas.
count = 0            # den här variabeln kommer hålla koll på stickprovets nummer
for (i in 1:nsim){
  count = count + 1
  x = rbinom(n, size = 1, prob = p) # size = 1 gör att binomialfördelningen blir en Bernoulli.
  phats[count] = mean(x)            # mean(x) ger oss andelen phat.
}
hist(phats, 50)

Som en sista övning med loopar, låt oss beräkna sannolikheten $P(X\leq 0.5)$ för en Bernoulli-variabel med sannolikheten $p$ där vi varierar $p$ mellan 0 och 1 i steg av 0.01:

ps = seq(0, 1, by = 0.01)
probability = rep(0, length(ps)) # funktionen length() räknar antalet element in en vektor
count = 0            
for (p in ps){   # man får använda annat namn än i som loop-variabel
  count = count + 1
  probability[count] = pbinom(0.5, size = 1, prob = p)  # p ändras i varje upprepning
}
plot(ps, probability, type = "l", xlab = "p", ylab = "P(X<=0.5)")

1. Konfidensintervall och test för en andel

💪 Uppgift 1.1

På föreläsningen om konfidensintervall för en andel såg vi att andelen S-väljare p skattades till 0.371 i SVT/Novus undersökning i Februari 2023 baserat på ett stickprov av n=3539 personer där alltså 1313 person angav att de skulle rösta på S. Vi såg också att ett 95% konfidensintervall för p var (0.355, 0.387).

Månaden innan (SVT/Novus, Januari 2023) skattades andelen S-väljare till 0.347 (samma antal personer tillfrågades och 1228 personer angav att de skulle rösta på S). Använd funktionen prop.test för att beräkna ett 95% konfidensintervall för p i Januari 2023.

Beräkna även detta konfidensintervall med formeln

\[ \hat p \pm z_{\alpha/2}\cdot\sqrt{\frac{pq}{n}} \]

💪 Uppgift 1.2

I senaste valet fick S 30,33% av rösterna. Använda prop.test för att testa på 5% signifikansnivå om andelen S-väljare i i Februari 2023 är förändrat sedan valet.

2. Konfidensintervall och test för ett väntevärde

I Övning 20.65 i SDA-boken analyseras data för mängden socker i frukostflingor (gram per 100 gram flingor) för flingor som riktar sig till barn (child_sugar):

child_sugar = c(40.3,55.0,45.7,43.3,50.3,45.9,53.5,43,44.2,44,47.4,44,33.6,55.1,48.8,50.4,37.8,60.3,46.6)

Låt oss analysera child_sugar med modellen

\[X_1,X_2,\ldots,X_n \overset{iid}{\sim}N(\mu,\sigma)\]

💪 Uppgift 2.1

Använd R för att beräkna ett 95%-igt konfidensintervall för $\mu$, både genom att använda formeln

\[\bar x \pm t_{\alpha/2,n-1}\frac{s}{\sqrt n}\]

och genom att använda funktionen t.test.

💪 Uppgift 2.2

Använd funktionen t.test för att utföra testet:

\[ \begin{align} &H_0: \mu = 50 \\ &H_1:\mu\neq50 \end{align} \]

genom att beräkna p-värdet för testet och förkasta $H_0$ om p-värdet är mindre än $\alpha =0.05$. Dvs testa på 5% signifikansnivå. Tolka resultatet från testet.

💪 Uppgift 2.3

Upprepa testet i uppgiften ovan för olika värden på nollhypotesens värde, $\mu_0$. Prova alla värden på nollhypotesen $\mu_0$ i vektorn seq(40, 50, by = 0.1), dvs utför testet i uppgiften ovan med $\mu_0 = 40$, sen med $\mu_0=40.1$ osv ända till $\mu_0=50$. Registera om du förkastar $H_0$ eller inte för varje värde på $\mu_0$. För vilka värden på $\mu_0$ förkastar du $H_0$? Jämför med konfidensintervallet i Uppgift 2.1.

Tips

Använd en for-loop för att loop:a över alla värden på $\mu_0$. Använd min kod ovan som beräkna sannolikheten $P(X\leq 0.5)$ för en Bernoulli-variabel med sannolikheten $p$ som en mall för denna loop.

Resultatet från t.test är en lista. Så använd $-tecknet för att plocka ut p-värdet från resultat-listan från testet (t ex resultat$p.value om du sparat resultatet från t.test i variabeln resultat).

💪 Uppgift 2.4

Du är egentligen intresserad av att bevisa att den genomsnittliga sockermängden i barnflingor är mer än 40 gram. Dvs, du vill testa den enkelsidiga hypotesen på signifikansnivån $\alpha =0.05$:

\[ \begin{align} &H_0: \mu = 40 \\ &H_1: \mu > 40 \end{align} \]

använd funktionen t.test för att testa detta. Tips: läs i hjälpen ?t.test.

3. Centrala gränsvärdessatsen

Antag att data kommer från en likforming (Uniform) fördelning mellan 0 och 1, dvs $a=0$ och $b=1$ i den likformiga fördelningen. Alltså: $X_1,X_2,\ldots,X_n\overset{iid}{\sim}\mathrm{Uniform}(0,1).$

💪 Uppgift 3.1

Simulera 10000 stickprov med vardera $n=2$ observationer och beräkna medelvärdet i varje stickprov. Rita ett histogram över dessa 10000 medelvärden.

💪 Uppgift 3.2

Upprepa Uppgift 3.1 för $n=5$, $n=10$ och $n=30$ observationer i varje stickprov. Kommentera resultatet.

💪 Uppgift 3.3

Upprepa Uppgift 3.2, men istället för att beräkna medelvärdet i varje stickprov så ska du beräkna statistikan

\[ x_{\mathrm{max}}=\max(x_1,x_2,\ldots,x_n) \]

dvs det högsta värdet i varje stickprov. Varför verkar centrala gränsvärdessatsen inte fungera här?