Statistikkutkast

1. Utvalg

Dersom man produserer 1000 enheter av noe per dag og ønsker å sjekke kvaliteten kan det være for tidkrevende å sjekke alle 1000. Vi kan ta et tilfeldig utvalg, en stikkprøve, og ved å få informasjon om utvalget kan vi forhåpentligvis si litt om hele produksjonen. Når man analyser tallmaterialet kan man selvsagt gjøre det for hånd, men det er tidkrevende og digitale hjelpemidler er gode på dette. Fordelen med å bruke regneark eller programmering er at du trolig vil treffe disse igjen etter vgs. Du kan også bruke Geogebra, men det er ikke sikkert du støter på dette programmet etter vgs.

2. Statistikk komandoer i Excel

Figuren viser en del nyttige funksjoner i Excel

3. Begreper i statistikk

Populasjon - det totale antall individer eller objekter et sted eller over en tidsperiode. Eks: Alle harene i Nordmarka. Alle eplene produsert i Hardanger i 2023.

utvalg En del (liten) av populasjonen- Målet er å kunne si noe fornuftig / få kunnskap om populasjoner (store mengder) på grunnlag av små mengder - utvalg.

Stokastisk variabel

Estimator Gjennomsnittet av et utvalg $\bar{x}$ er en naturlig estimator for $\mu$, den ukjente forventningsverdien til hele populasjonen.

Kurtose. Normalfordelingen har kurtose 3. Høyere tall indikerer større forekomst av ekstreme verdier og motsatt.

Skjevhet. Dersom skjevheten er null er fordelingen symmetrisk. En fordeling kan ha positiv skjevhet, null ( symmetrisk) eller negativ. Dersom forskyvningen er null betyr det at medianverdi er sammenfallende med gjennomsnittsverdi. Gjennomsnitt > median er høyre forskyvning og er en positiv forskyvning. Median > gjennomsnitt gir en forskyvning mot venstre, en negativ forskyvning.

Det er mange måter og formler for å måle skjevhet (eng: Skewness) på, og Pearsons median skjevhet er blant de enkleste.

$ PearsMedS =3 \cdot \frac{gjennomsnitt - median}{standardavvik}$

Spredningsmål

4. Normalfordeling

Funksjonen har en klokkeformet graf:

$f(x)= \frac{1}{\sigma \sqrt{2 \pi}} e^{- \frac{(x-\mu)^2}{2 \sigma^2}}$

der $\mu$ er forventningsverdien og $\sigma$ er standardavviket.

Figuren illustrere hvordan standardavviket påvirker klokkeformen. Grafene har standardavvik fra 3 til 2. Desto mindre standardavviket blir, desto raskere nærmer grafen seg x aksen, på begge sider av forventningsverdien.

Figuren viser en normalfordeling med forventning 6 og standardavvik 2. Arealet under grafen fra x= 4 til x = 8 tilsvarer ett standardavvik og er ca 68% av forekomstene. To standardavvik er CA 95% og tre ca 100% ( ca 0,2% > 3 standardavvik).

Litt mer matematisk:

$P(\mu - \sigma \leq X \leq \mu + \sigma) = 0,683$

$P(\mu -2 \cdot \sigma \leq X \leq \mu + 2 \cdot \sigma) = 0,945$

$P(\mu - 3 \cdot \sigma \leq X \leq \mu + 3 \cdot \sigma) = 0,997$

5. Standardnormalfordelingen

En stokastisk variabel X med forventning $\mu =10 $ og standardavvik $\sigma = 3$ kan standardiseres ved variabelen Z.

$Z = \frac{X - \mu}{\sigma}$

Z er normalfordelt med forventning lik 0 og standardavvik 1. Z er standardnormalfordelt.

Eksempel:

I avsnittet om Excel kommandoer hadde utvalget på 20 enheter $\bar{x} = 519,45$. La oss anta at standardavviket for hele populasjonen er $ \sigma = 5,0$. (Normalt kjenner vi ikke populasjonens standardavvik, men vi kommer til det senere).

Standardavviket for utvalget blir da: $\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} = \frac{5}{\sqrt{20}} =1,1$

Dersom vi går to standardavvik hver vei fra $\bar{x}$ kan vi med 95% sannsynlighet si at forventningsverdien til populasjonen, $\mu$ ligger i det intervallet: [519,45 - 2,2 , 519,45 + 2,2] eller [517,25 , 521,65]

Dette er et 95% konfidensintervall for $\mu$

6. To stokastisk variable

To uavhengige stokastiske variable X og Y der X med forventning $\mu_x$ og standardavvik $\sigma_x$, og Y med forventning $\mu_Y$ og standardavvik $\sigma_Y$.

X-Y vil være normalfordelt med forventning $\mu_X - \mu_Y$ og standardavvik $ \sqrt{\sigma_x^2 + \sigma_Y^2}$

7. Konfidensintervall

Et intervall der vi tror en ukjent parameter ligger, kalles et konfidensintervall. Et konfidensintervall har et konfidensnivå som sier noe om hvor sannsynlig det er å finne den ukjente parameteren i intervallet. Det er vanlig å bruke et konfidensnivå på 95%, altså er det da 95% sannsynlig at parameteren man jakter på ligger i intervallet. Det er 5% sannsynlig at den ikke gjør det.

8. Punktestimat for $\mu$

Vår beste gjetning på populasjonens forventningsverdi $\mu$ er gjennomsnittet av utvalget.

$\overline{X} = \frac 1n \displaystyle\sum_{i=1}^{n} X_i$

Gjennomsnittet av utvalget, $\overline{x}$ er i seg selv en stokastisk variabel da den er gjennomsnittet av tilfeldig utvalgte verdier. $\overline{X}$ har forventningsverdi $\mu$ og standardavvik $\frac{\sigma}{\sqrt{n}}$

Dersom vi har valget mellom flere estimatorer bruker vi den med minst varians.

9. Punktestimat for $\sigma$

Et estimat for variansen er $S^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^{n} (X_i - \overline{X})^2 $

Man har funnet at å dele på n-1 i stedet for n gjør at $S^2$ blir en god forventningsrettet estimator for $\sigma^2$ under generelle betingelser.

$S^2$ er forventningsrettet for $\sigma^2$, men $S$ er ikke forventningsrettet for $\sigma$, men brukes likevel da feilen i praksis er liten.

Siden vi normalt ikke kjenner standardavviket bruker vi $\frac {s}{\sqrt{n}}$ som kalles standardfeilen til gjennomsnittet.

10. t - fordelingen

Fra sentralgrenseteoremet vet vi at z er tilnærmet normalfordelt:

$Z = \frac{\overline{x}- \mu}{\frac{\sigma}{\sqrt{n}}}$

Vi kjenner sjelden populasjonenes standardavvik $ \sigma$, og må bruke s:

$t = \frac{\overline{x}- \mu}{\frac{S}{\sqrt{n}}}$

t har "feitere haler" enn normalfordelingen og lavere maksimumsverdi. Ved mer enn 30 observasjoner er fordelingene ganske like.

11. Hypotesetesting

En hypotese har alltid en motsatt hypotese, slik at man har to hypoteser. Dersom påstanden er "produkt A er bedre enn produkt B", så eksisterer også hypotesen om at A ikke er er bedre enn B.

Vi formulerer hypotesene $H_1$ og $H_0$. Bevisbyrden ligger på $H_1$ som utfordrer. Tvilen kommer nullhypotesen $H_0$ til gode.

Vi må ta et valg og følgende fire alternativer er mulige:

Det er ikke gitt at utfallet blir riktig, men ved å følge trinnene nedenfor har man et godt utgangspunkt:

1 Formulere en modell og hypoteser 2 Vi finner en stokastisk variabel vi kan basere våre beslutninger på. En slik variabel kalles for testobservator, og vi må kjenne sannsynlighetsfordelingen til denne. 3 Hva tenker vi om feilmargin og signifikansnivå?

12. t -test

Antar

Normalfordeling

Lik varians

Samme antall datapunkter

Bør ha 20-30 datapunkter, men testen er god med relativt få punkter har du mange 50+ , bruker du z testen.

Du kan bruke t-testen dersom du vil sammenligne to populasjoner, for eksempel produktene fra maskin A og B., eller avlingen fra ett jorde sammenlignet med et annet jorde.

Testen Vi har nullhypotesen som sier at det er ingen forskjeller, H0

Uparet t-test (uavhengige utvalg)

Brukes når de to datasettene kommer fra to forskjellige utvalg. Også kalt uavhengige utvalgs/gruppers t-test.

Paret t-test

Brukes når en skal finne ut om det er signifikant forskjell i gjennomsnittet av to datasett, fra samme populasjon. For eksepel for og etter en behandling, eller ved forskjellige målemetoder.

13. CASE: VEKST I DRIVHUS

I drivhusene A og B dyrkes det samme typer planter. Det dyrkes 10.000 enheter i hver av husene. Hvor stort utvalg av planter må hun måle for å kunne si noe om populasjonen? Gjennom åtte sesonger måler hun høyden på plantene i tre tilfeldige utvalg, 10 planter, 50 planter og 100 planter, alle fra drivhus A, og alle på dag 50 etter såing. Hun fikk disse resultatene:

Det bonden ikke vet er at vi har målt hele populasjonen alle årene og "fasiten" står først, i de grå feltene. Det er ingen regler på hvor stort utvalget må være, men jo større utvalg jo bedre beslutningsgrunnlag. Store utvalg tar tid og koster mer penger. Vi ser at et utvalg på 10 planter gir en pekepinn på hvor forventningsverdi og standardavvik ligger. De relativt store avvikene er markert med rødt. Vi observerer at de blir færre når størrelsen på utvalget øker.

Bonden har en mistanke om at plantene i drivhus B vokser raskere enn i drivhus A. Hun bestemmer seg for å måle høyden på plantene 50 dager etter såing. Hun lar 60 tilfeldige planter inngå i utvalgene fra hvert drivhus. I drivhus B er forventningsverdien 524 mm og standardavviket 44 mm. I drivhus A er forventningsverdien 502 mm med et standardavvik på 22.