Statistikkutkast

Utvalg

Dersom man produserer 1000 enheter av noe per dag og ønsker å sjekke kvaliteten kan det være for tidkrevende å sjekke alle 1000. Vi han ta et tilfeldig utvalg, en stikkprøve, og ved å få informasjon om utvalget kan vi forhåpentligvis si litt om hele produksjonen. Når man analyser tallmaterialet kan man selvsagt gjøre det for hånd, men det er tidkrevende og digitale hjelpemidler er gode på dette. Fordelen med å bruke regneark eller programmering er at du trolig vil treffe disse igjen etter vgs. Du kan også bruke Geogebra, men det er ikke sikkert du støter på dette programmet etter vgs.

Nedenfor viser regnearket 20 tilfeldige verdier fra en produksjon på 1000. Vi ønsker å bruke de 20 enhetene til å si noe om hele dagsproduksjonen på 1000. 1000 er da populasjonen og 20 er utvalget ("sampel" på engelsk)

Her har vi tatt et utvalg på 20 fra en produksjonsserie på 1000. Vi har målt høyden på det enkelte produkt.

Begreper i statistikk

Populasjon - det totale antall individer eller objekter et sted eller over en tidsperiode. Eks: Alle harene i Nordmarka. Alle eplene produsert i Hardanger i 2023.

utvalg En del (liten) av populasjonen-

Målet er å kunne si noe fornuftig / få kunnskap om populasjoner (store mengder) på grunnlag av små mengder - utvalg.

forventningsrettet estimator

Kurtose. Normalfordelingen har kurtose 3. Høyere tall indikerer større forekomst av ekstreme verdier og motsatt.

Skjevhet. Dersom skjevheten er null er fordelingen symmetrisk

[ https://matematikk.net/side/Spredningsm%C3%A5l | Spredningsmål ]

Normalfordeling

Funksjonen har en klokkeformet graf:

$f(x)= \frac{1}{\sigma \sqrt{2 \pi}} e^{- \frac{(x-\mu)^2}{2 \sigma^2}}$

der $\mu$ er forventningsverdien og $\sigma$ er standardavviket.

Figuren illustrere hvordan standardavviket påvirker klokkeformen. Grafene har standardavvik fra 3 til 2. Desto mindre standardavviket blir, desto raskere nærmer grafen seg x aksen, på begge sider av forventningsverdien.

Figuren viser en normalfordeling med forventning 6 og standardavvik 2. Arealet under grafen fra x= 4 til x = 8 tilsvarer ett standardavvik og er ca 68% av forekomstene. To standardavvik er CA 95% og tre ca 100% ( ca 0,2% > 3 standardavvik).

Litt mer matematisk:

$P(\mu - \sigma \leq X \leq \mu + \sigma) = 0,683$

$P(\mu -2 \cdot \sigma \leq X \leq \mu + 2 \cdot \sigma) = 0,945$

$P(\mu - 3 \cdot \sigma \leq X \leq \mu + 3 \cdot \sigma) = 0,997$

Standardnormalfordelingen

En stokastisk variabel X med forventning $\mu =10 $ og standardavvik $\sigma = 3$ kan standardiseres ved variabelen Z.

$Z = \frac{X - \mu}{\sigma}$

Z er normalfordelt med forventning = og standardavvik 1. Z er standardnormalfordelt.

To stokastisk variable

To uavhengige stokastiske variable X og Y der X med forventning $\mu_x$ og standardavvik $\sigma_x$, og Y med forventning $\mu_Y$ og standardavvik $\sigma_Y$.

X-Y vil være normalfordelt med forventning $\mu_X - \mu_Y$ og standardavvik $ \sqrt{\sigma_x^2 + \sigma_Y^2}$

Konfidensintervall

Et intervall der vi tror en ukjent parameter ligger, kalles et konfidensintervall. Et konfidensintervall har et konfidensnivå som sier noe om hvor sannsynlig det er å finne den ukjente parameteren i intervallet. Det er vanlig å bruke et konfidensnivå på 95%, altså er det da 95% sannsynlig at parameteren man jakter på ligger i intervallet. Det er 5% sannsynlig at den ikke gjør det.

Case Blomsterpinner

En blomsterpinne er en tynn pinne som man stikker ned i blomsterpotten for å støtte planten under vekst. Vi driver en bedrift og vi lager 20595 blomsterpinner om dagen. Maskinene er stilt inn sånn at pinnene skal bli 50 cm lange, men utstyret er gammelt så vi ser jo at det ikke er alle pinner som er like lange. Hvor lange er de egentlig? Og hvor mye varierer de i lengde?

Vi prøver å estimere på grunnlag av ett eller flere utvalg. Det kan være et punktestimat, altså en enkeltverdi, eller det kan være et konfidensintervall der man mener verdien ligger, med en viss sikkerhet.

Vi lager oss en populasjon i Excel. Da har vi styring på både forventningsverdi og standardavvik. Vi simulerer 20 595 pinner, setter forventningsverdien til 50 og standardavviket til 3:

Vi ser fra figuren at søylene som angir sannsynlighetstettheten av antallet simuleringer danner en klokkeform som kan minne om en kurve lik dem over. Populasjonen har en forventning $\mu = 50$ og et standardavvik $\sigma = 1,97$.

I virkeligheten vet ikke vi noe om dette. Vi håper og tror at pinnene er 50 cm lange fordi maskinene er innstilt slik. Det tar for lang tid å måle hver enkelt pinne i hele produksjonen. Vi bestemmer oss for å ta ut og måle tre serier fra produksjonen hver dag i 16 dager. Etter dagens produksjon tar vi først ut en gruppe på 10 pinner, så en gruppe på 100 og til slutt en gruppe på 1000 pinner, alle helt tilfeldig.

Simuleringen tilsvarer en produksjon på 20595 pinner. Vi simulerer på nytt hver dag i 16 dager. Hvor mye betyr utvalgets størrelse på estimatene, og hva er egentlig stdavP og stadvS

Hvor lange er pinnene?

Punktestimat for $\mu$

Vår beste gjetning på populasjonens forventningsverdi $\mu$ er gjennomsnittet av utvalget.

$\overline{X} = \frac 1n \displaystyle\sum_{i=1}^{n} X_i$

Gjennomsnittet av utvalget, $\overline{x}$ er i seg selv en stokastisk variabel da den er gjennomsnittet av tilfeldig utvalgte verdier. $\overline{X}$ har forventningsverdi $\mu$ og standardavvik $\frac{\sigma}{\sqrt{n}}$

Dersom vi har valget mellom flere estimatorer bruker vi den med minst varians.

Punktestimat for $\sigma$

Et estimat for variansen er $S^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^{n} (X_i - \overline{X})^2 $

Man har funnet at å dele på n-1 i stedet for n gjør at $S^2$ blir en god forventningsrettet estimator for $\sigma^2$ under generelle betingelser.

$S^2$ er forventningsrettet for $\sigma^2$, men $S$ er ikke forventningsrettet for $\sigma$, men brukes likevel da feilen i praksis er liten.

Siden vi normalt ikke kjenner standardavviket bruker vi $\frac {s}{\sqrt{n}}$ som kalles standardfeilen til gjennomsnittet.

t - fordelingen

Fra sentrlgrenseteoremet vet vi at z er tilnærmet normalfordelt:

$Z = \frac{\overline{x}- \mu}{\frac{\sigma}{\sqrt{n}}}$

Vi kjenner sjelden populasjonenes standardavvik $ \sigma$, og må bruke s:

$t = \frac{\overline{x}- \mu}{\frac{S}{\sqrt{n}}}$

t har "feitere haler" enn normalfordelingen og lavere maksimumsverdi. Ved mer enn 30 observasjoner er fordelingene ganske like.

Hypotesetesting

En hypotese har alltid en motsatt hypotese, slik at man har to hypoteser. Dersom påstanden er "produkt A er bedre enn produkt B", så eksisterer også hypotesen om at A ikke er er bedre enn B.

Vi formulerer hypotesene $H_1$ og $H_0$. Bevisbyrden ligger på $H_1$ som utfordrer. Tvilen kommer nullhypotesen $H_0$ til gode.

Vi må ta et valg og følgende fire alternativer er mulige:

Det er ikke gitt at utfallet blir riktig, men ved å følge trinnene nedenfor har man et godt utgangspunkt:

1 Formulere en modell og hypoteser 2 Vi finner en stokastisk variabel vi kan basere våre beslutninger på. En slik variabel kalles for testobservator, og vi må kjenne sannsynlighetsfordelingen til denne. 3 Hva tenker vi om feilmargin og signifikansnivå?