Måder at beregne varians på

Forfatter: Robert Simon
Oprettelsesdato: 21 Juni 2021
Opdateringsdato: 1 Juli 2024
Anonim
Måder at beregne varians på - Tips
Måder at beregne varians på - Tips

Indhold

Varians måler spredningen af ​​datasættet. Det er meget nyttigt at opbygge statistiske modeller: lav varians kan være en indikation af, at du beskriver tilfældig fejl eller støj i stedet for det underliggende forhold i dataene. Med denne artikel lærer wikiHow dig, hvordan du beregner varians.

Trin

Metode 1 af 2: Beregn variansen af ​​en prøve

  1. Skriv dit eksempeldatasæt. I de fleste tilfælde har statistikere kun oplysninger om en stikprøve eller delmængde af den befolkning, de studerer. For eksempel kan en statistiker i stedet for at foretage en generel analyse af "prisen på hver bil i Tyskland" finde prisen på en tilfældig stikprøve på et par tusinde biler. Statistikeren kan bruge denne prøve til at få et godt skøn over prisen på biler i Tyskland. Det er dog mere sandsynligt, at det ikke nøjagtigt svarer til de faktiske tal.
    • For eksempel: Når du analyserede antallet af solgte boller om dagen på en kaffebar, tog du en tilfældig seks-dages prøve og fik følgende resultater: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. Dette er en prøve, ikke en population, fordi du ikke har data for hver dag, butikken er åben.
    • Hvis hver Datapunkter i masteren. Gå til metoden nedenfor.

  2. Skriv eksemplet på variansformlen. Varianten af ​​et datasæt angiver graden af ​​spredning af datapunkterne. Jo tættere variansen er på nul, jo tættere er datapunkterne grupperet. Når du arbejder med eksempeldatasæt, skal du bruge følgende formel til at beregne varians:
    • = /(n - 1)
    • er variansen. Variant beregnes altid i kvadratiske enheder.
    • repræsenterer en værdi i dit datasæt.
    • ∑, der betyder "sum", fortæller dig at beregne følgende parametre for hver værdi og derefter tilføje dem sammen.
    • x̅ er gennemsnittet af prøven.
    • n er antallet af datapunkter.

  3. Beregn gennemsnittet af prøven. Symbolet x̅ eller "x-vandret" bruges til at indikere gennemsnittet af prøven. Beregn som et gennemsnit: tilføj alle datapunkterne og divider det med antallet af point.
    • For eksempel: Først skal du tilføje dine datapunkter: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Derefter divideres resultatet med antallet af datapunkter, i dette tilfælde seks: 84 ÷ 6 = 14.
      Eksempel middelværdi = x̅ = 14.
    • Du kan tænke på middelværdien som "centrum" for dataene. Hvis dataene er centreret omkring gennemsnittet, er variansen lav. Hvis de er spredt langt fra gennemsnittet, er variansen høj.

  4. Træk gennemsnittet fra hvert datapunkt. Nu er det tid til at beregne - x̅, hvor hvert punkt i dit datasæt er. Hvert resultat angiver afvigelse fra gennemsnittet for hvert tilsvarende punkt, eller for at sige det enkelt, afstanden fra det til gennemsnittet.
    • For eksempel:
      - x̅ = 17 - 14 = 3
      - x̅ = 15 - 14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - x̅ = 13 - 14 = -1
    • Det er meget let at kontrollere dine beregninger, fordi resultaterne skal summe til nul. Dette skyldes, ved definitionen af ​​middelværdi, negative resultater (afstanden fra middelværdien til små tal positive resultater (afstand fra gennemsnit til større antal) elimineres fuldstændigt.
  5. Firkant alle resultater. Som nævnt ovenfor har den aktuelle afvigelsesliste (- x̅) en sum på nul. Det betyder, at "middelafvigelsen" også altid vil være nul og ikke kan sige noget om spredningen af ​​dataene. For at løse dette problem finder vi kvadratet for hver afvigelse. Takket være det er alle positive tal, negative værdier og positive værdier annullerer ikke længere hinanden og giver summen nul.
    • For eksempel:
      (- x)
      - x)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • Du har nu (- x̅) for hvert datapunkt i prøven.
  6. Find summen af ​​de kvadratiske værdier. Nu er det tid til at beregne hele tælleren med formlen: ∑. Den store cyclo, ∑, kræver, at du tilføjer følgende elementværdi for hver værdi. Du har beregnet (- x̅) for hver værdi i prøven, så alt hvad du skal gøre er bare at tilføje resultaterne sammen.
    • For eksempel: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. Divider med n - 1, hvor n er antallet af datapunkter. For længe siden, ved beregning af prøvevariansen, blev statistikere kun divideret med n. Denne division giver dig gennemsnittet af den kvadratiske afvigelse, som nøjagtigt svarer til variansen af ​​denne prøve. Husk dog, at prøven kun er et skøn over en større population. Hvis du tager en anden tilfældig prøve og foretager den samme beregning, får du et andet resultat. Når det viser sig, at dividere med n -1 i stedet for n giver dig et bedre skøn over variansen af ​​en større befolkning - som du virkelig holder af. Denne korrektion er så almindelig, at det nu er den accepterede definition af prøvevarians.
    • For eksempel: Der er seks datapunkter i prøven, så n = 6.
      Eksempelvarians = 33,2
  8. Forstå variation og standardafvigelse. Bemærk, at da der er kræfter i formlen, måles varians i kvadratet af enhederne med de originale data. Dette er visuelt forvirrende. I stedet for er standardafvigelsen ofte ret nyttig. Men der er ingen mening med at spilde nogen indsats, da standardafvigelsen bestemmes af variansens kvadratrod. Derfor er prøvevariansen skrevet i termer, og standardafvigelsen for en prøve er.
    • For eksempel er standardafvigelsen for ovenstående prøve = s = √33.2 = 5.76.
    reklame

Metode 2 af 2: Beregn varians af en population

  1. Startende med masterdatasættet. Udtrykket "befolkning" bruges til at henvise til alle relevante observationer. For eksempel, hvis du undersøger alderen på Hanoi-beboere, vil din samlede befolkning omfatte aldrene for alle personer, der bor i Hanoi. Normalt opretter du et regneark til et stort datasæt som dette, men her er et mindre eksempel på datasæt:
    • For eksempel: I et akvariums rum er der nøjagtigt seks akvarier. Disse seks tanke indeholder følgende antal fisk:





  2. Skriv formlen for den samlede varians. Da en population indeholder alle de data, vi har brug for, giver denne formel os den nøjagtige variation i befolkningen. For at skelne det fra prøvevariansen (som kun er et skøn) bruger statistikere andre variabler:
    • σ = /n
    • σ = prøvevarians. Dette er den normalt firkantede pølse. Variation måles i kvadratiske enheder.
    • repræsenterer et element i dit datasæt.
    • Elementet i ∑ beregnes for hver værdi og tilføjes derefter.
    • μ er det samlede gennemsnit.
    • n er antallet af datapunkter i befolkningen.
  3. Find gennemsnittet af befolkningen. Ved analyse af en population repræsenterer symbolet μ ("mu") det aritmetiske gennemsnit. For at finde middelværdien skal du tilføje alle datapunkterne og derefter dividere med antallet af punkter.
    • Du kan tænke på middelværdien som "gennemsnit", men vær forsigtig, fordi ordet har mange matematiske definitioner.
    • For eksempel: middelværdi = μ = = 10,5
  4. Træk gennemsnittet fra hvert datapunkt. Datapunkter tættere på gennemsnittet har en forskel tættere på nul. Gentag subtraktionsproblemet for alle datapunkter, og du vil sandsynligvis begynde at mærke spredningen af ​​dataene.
    • For eksempel:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Firkant hvert tegn. På dette tidspunkt vil nogle af resultaterne fra det foregående trin være negative, og nogle vil være positive.Hvis dataene skal visualiseres på en isometrisk linje, repræsenterer disse to emner tallene til venstre og højre for middelværdien. Dette ville ikke være nyttigt ved beregning af varians, da disse to grupper ville annullere hinanden. I stedet firkantet dem alle, så de alle er positive.
    • For eksempel:
      (- μ) for hver værdi af jeg løber fra 1 til 6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Find gennemsnittet af dine resultater. Du har nu en værdi for hvert datapunkt, der er relateret (ikke direkte) til hvor langt væk datapunktet er fra middelværdien. Gennemsnit ved at tilføje dem sammen og dividere med antallet af værdier, du har.
    • For eksempel:
      Samlet varians = 24,25
  7. Kontaktopskrift. Hvis du ikke er sikker på, hvordan dette passer til den formel, der er skitseret i begyndelsen af ​​metoden, skal du skrive hele problemet ned manuelt og ikke forkorte:
    • Efter at have fundet forskellen fra middelværdien og kvadrering, får du (- μ), (- μ) osv. Indtil (- μ), hvor er det sidste datapunkt. i datasættet.
    • For at finde gennemsnittet af disse værdier skal du tilføje dem sammen og dele med n: ((- μ) + (- μ) + ... + (- μ)) / n
    • Efter omskrivning af tælleren med sigmoid notation har du /n, formelvarians.
    reklame

Råd

  • Da variansen er vanskelig at fortolke, beregnes denne værdi ofte som udgangspunktet for at finde standardafvigelsen.
  • Brug af "n-1" i stedet for "n" i nævneren er en teknik kaldet Bessel-korrektion. Prøven er kun et skøn over en komplet population, og stikprøvernes gennemsnit har en vis bias for at matche dette skøn. Denne korrektion eliminerer ovenstående bias. Det vedrører det faktum, at når det første n-1 datapunkt er blevet talt, det sidste punkt n er allerede en konstant, fordi kun bestemte værdier bruges til at beregne gennemsnittet af prøven (x̅) i variansformlen.