Beregn kovarians

Forfatter: Judy Howell
Oprettelsesdato: 2 Juli 2021
Opdateringsdato: 1 Juli 2024
Anonim
7e - Kovarians og korrelasjonskoeffisient (Statistikk)
Video.: 7e - Kovarians og korrelasjonskoeffisient (Statistikk)

Indhold

Kovarians er en statistisk beregning for at gøre forholdet mellem to datasæt mere gennemsigtigt. Antag for eksempel, at antropologer studerer højden og vægten af ​​en befolkning inden for en bestemt kultur. For hver person i undersøgelsen kan højde og vægt vises med et par data (x, y). Disse værdier kan bruges i en standardformel til beregning af kovariansforholdet. Denne artikel forklarer først beregningerne til bestemmelse af datasættets kovarians. Dernæst diskuteres to andre automatiserede måder at bestemme resultatet på.

At træde

Metode 1 af 4: Beregn kovariansen manuelt ved hjælp af standardformlen

  1. Lær standardformlen for kovarians og dens dele. Standardformlen til beregning af kovarians er Σ(xjegxgns)(yjegygns)/(n1){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}}) / (n-1)}Konstruer din datatabel. Før du går i gang, er det nyttigt at indsamle dine data. Opret en tabel bestående af fem kolonner. Du skal erklære hver kolonne som følger:
    • x{ displaystyle x}Beregn gennemsnittet af x-datapunkterne. Dette eksempeldatasæt indeholder 9 tal. For at finde gennemsnittet, tilføj dem sammen og del summen med 9. Dette giver resultatet 1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Når du deler dette med 9, får du gennemsnittet 4,89. Dette er den værdi, du vil bruge som x (gennemsnit) til de kommende beregninger.
    • Beregn gennemsnittet af y-datapunkterne. Denne y-kolonne skal også bestå af 9 datapunkter, der falder sammen med x-datapunkterne. Bestem gennemsnittet af disse. For dette eksempeldatasæt bliver dette 8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Del denne sum med 9 for at få et gennemsnit på 5,44. Du skal bruge 5.44 som værdien af ​​y (gennemsnit) til de kommende beregninger.
    • Beregn værdierne (xjegxgns){ displaystyle (x_ {i} -x _ { text {avg}})}Beregn værdierne (yjegygns){ displaystyle (y_ {i} -y _ { text {avg}})}Beregn produkterne for hver datarække. Du udfylder rækkerne i den sidste kolonne ved at multiplicere de tal, du har beregnet i de to foregående kolonner (xjegxgns){ displaystyle (x_ {i} -x _ { text {avg}})}Find summen af ​​værdierne i den sidste kolonne. Det er her symbolet Σ kommer ind. Efter at have foretaget alle beregningerne hidtil, tilføj resultaterne sammen. For dette eksempeldatasæt skal du nu have ni værdier i den sidste kolonne. Tilføj disse ni tal sammen. Vær meget opmærksom på, om et tal er positivt eller negativt.
      • Summen af ​​dette eksempeldatasæt skal tilføje op til -64,57. Skriv denne sum i mellemrummet nederst i kolonnen. Dette er værdien af ​​tælleren af ​​standardformlen for kovarians.
    • Beregn nævneren for kovariansformlen. Tælleren for standardkovariansformlen er den værdi, du lige har beregnet. Nævneren er repræsenteret af (n-1) og er en mindre end antallet af par af dataene i dit datasæt.
      • I dette eksempelproblem er der ni datapar, så n er 9. Derfor er værdien af ​​(n-1) lig med 8.
    • Del tælleren efter nævneren. Det sidste trin i beregningen af ​​kovariansen er at opdele tælleren, Σ(xjegxgns)(yjegygns){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}})}Bemærk hvad de gentagne beregninger der er. Kovarians er en beregning, du skal gøre i hånden et par gange, så du forstår betydningen af ​​resultatet. Men hvis du rutinemæssigt bruger kovarians til fortolkning af data, har du brug for en hurtigere og mere automatiseret måde at få resultaterne på. Nu har du måske bemærket, at beregningerne med vores relativt lille datasæt på kun ni datapar bestod af to midler, atten separate subtraktioner, ni multiplikationer, en tilføjelse og endelig en anden division. Det er 31 relativt små beregninger for at finde løsningen. Undervejs risikerer du at gå glip af negative tegn eller kopiere resultaterne forkert, så svaret ikke længere er korrekt.
    • Opret et regneark til beregning af kovariansen. Hvis du er fortrolig med Excel (eller et andet beregningsprogram), kan du nemt oprette en tabel til bestemmelse af kovariansen. Mærk overskrifterne på de fem kolonner, som du gjorde ved beregningerne i hånden: x, y, (x (i) -x (gennemsnit)), (y (i) -y (gennemsnit)) og Produkt.
      • For at forenkle navngivning skal du kalde den tredje kolonne noget som "x forskel" og den fjerde kolonne "y forskel", så længe du husker betydningen af ​​dataene.
      • Hvis tabellen starter i øverste venstre hjørne af regnearket, bliver celle A1 mærket x, mens de andre etiketter fortsætter op til celle E1.
    • Indtast datapunkterne. Indtast dataværdierne i de to kolonner x og y. Husk, at rækkefølgen af ​​datapunkterne betyder noget, så du skal matche hvert y med den tilsvarende værdi på x.
      • X-værdierne starter i celle A2 og fortsætter op til det antal datapunkter, du har brug for.
      • Y-værdierne starter i celle B2 og fortsætter op til det antal datapunkter, du har brug for.
    • Bestem middelværdien af ​​x- og y-værdierne. Excel beregner gennemsnittet for dig meget hurtigt. Skriv formlen i den første tomme celle under hver datakolonne = GENNEMSNIT (A2: A ___). Udfyld det tomme rum med nummeret på cellen, der svarer til dit sidste datapunkt.
      • For eksempel, hvis du har 100 datapunkter, udfyldes cellerne A2 til A101, så i cellen skriver du = GENNEMSNITTIG (A2: A101).
      • For y-data skal du skrive formlen = GENNEMSNIT (B2: B101).
      • Husk at en formel i Excel starter med et "=" tegn.
    • Indtast formlen for kolonnen (x (i) -x (gennemsnit)). Indtast formlen til beregning af den første subtraktion i celle C2. Denne formel bliver: = A2 -___. Udfyld det tomme rum med celleadressen, der indeholder gennemsnittet af x-data.
      • For eksempel, af de 100 datapunkter, vil gennemsnittet være i celle A103, så din formel bliver: = A2-A103.
    • Gentag formlen for datapunkterne (y (i) -y (gennemsnit)). Efter det samme eksempel kommer det ind i celle D2. Formlen bliver: = B2-B103.
    • Indtast formlen for kolonnen "Produkt". I den femte kolonne skal du indtaste formlen i celle E2 for at beregne produktet af de to foregående celler. Dette bliver derefter: = C2 * D2.
    • Kopier formlerne for at udfylde tabellen. Indtil nu har du kun programmeret de første få datapunkter i række 2. Marker cellerne C2, D2 og E2 ved hjælp af musen. Placer markøren på den lille boks i nederste højre hjørne, indtil der vises et plustegn. Klik og hold museknappen nede, og træk musen ned for at udvide markeringen og udfylde hele datatabellen. Dette trin kopierer automatisk de tre formler fra cellerne C2, D2 og E2 til hele tabellen. Tabellen skal automatisk udfyldes med alle beregningerne.
    • Programmer summen af ​​den sidste kolonne. Du har brug for summen af ​​varerne i kolonnen "Produkt". Skriv formlen i den tomme celle umiddelbart under det sidste datapunkt i denne kolonne: = SUM (E2: E ___). Udfyld det tomme område med celleadressen til det sidste datapunkt.
      • I eksemplet med 100 datapunkter går denne formel ind i celle E103. Type: = SUM (E2: E102).
    • Bestem kovariansen. Du kan også få Excel til at udføre den endelige beregning for dig. Den sidste beregning i celle E103 i vores eksempel repræsenterer tælleren for kovariansformlen. Lige under den celle skal du skrive formlen: = E103 / ___. Udfyld det tomme rum med det antal datapunkter, du har. I vores eksempel er dette 100. Resultatet er kovariansen af ​​dine data.

Metode 3 af 4: Brug af online kovarians-regnemaskiner

  1. Søg online efter kovarians-regnemaskiner. Forskellige skoler, virksomheder eller andre kilder har websteder, der beregner kovariansværdierne meget let for dig. Brug søgeudtrykket "kovariansberegner" i en søgemaskine.
  2. Indtast dine oplysninger. Læs instruktionerne på hjemmesiden nøje for at sikre, at du indtaster oplysningerne korrekt. Det er vigtigt, at dine datapar holdes i orden, ellers vil det genererede resultat være en forkert kovarians. Websteder har forskellige stilarter for dataindtastning.
    • For eksempel er der på webstedet http://ncalculators.com/statistics/covariance-calculator.htm en vandret boks til indtastning af x-værdierne og en anden vandret boks til indtastning af y-værdierne. Du skal indtaste dine data adskilt med kommaer. Således skal x-datasættet beregnet tidligere i denne artikel indtastes som 1,3,2,5,8,7,12,2,4. Y-dataene er 8,6,9,4,3,3,2,7,7.
    • På et andet sted, https://www.thecalculator.co/math/Covariance-Calculator-705.html, bliver du bedt om at indtaste x-data i det første felt. Data indtastes lodret med et element pr. Linje. Derfor ser posten på dette websted ud som:
    • 1
    • 3
    • 2
    • 5
    • 8
    • 7
    • 12
    • 2
    • 4
  3. Beregn dine resultater. Det attraktive ved disse online beregninger er, at når du indtaster dataene, behøver du normalt kun at klikke på "Beregn" -knappen, og resultaterne vises automatisk. De fleste websteder giver dig de mellemliggende beregninger af x (gennemsnit), y (gennemsnit) og n.

Metode 4 af 4: Fortolkning af resultaterne af kovariansen

  1. Kig efter et positivt eller negativt forhold. Kovariansen er et enkelt statistisk tal, der angiver forholdet mellem et datasæt og et andet. I eksemplet nævnt indledningen måles højden og vægten. Du ville forvente, at når folk vokser, vil deres vægt også stige, hvilket fører til en positiv kovarians-opfattelse. Et andet eksempel: Antag, at der indsamles data, der angiver antallet af timer, nogen træner golf og den score, han eller hun opnår. I dette tilfælde forventer du en negativ kovarians, hvilket betyder, at når antallet af træningstimer stiger, vil golfscoren falde. (I golf er en lavere score bedre).
    • Overvej prøvedatasættet beregnet ovenfor. Den resulterende kovarians er -8,07. Minustegnet betyder, at når x-værdierne stiger, har y-værdierne en tendens til at falde. Du kan se, at dette er sandt ved at se på nogle af værdierne. For eksempel svarer x-værdierne på 1 og 2 til y-værdierne på 7, 8 og 9. X-værdierne på 8 og 12 er knyttet til y-værdierne på henholdsvis 3 og 2 .
  2. Fortol kovariansens størrelse. Hvis antallet af covariansscore er stort, enten et stort positivt tal eller et stort negativt tal, kan du fortolke dette som to dataelementer, der er stærkt forbundet, enten på en positiv eller negativ måde.
    • Samvariancen -8,07 af prøvedatasættet er ret stor. Bemærk, at dataene spænder fra 1 til 12. Så 8 er et ret stort antal. Dette indikerer et forholdsvis stærkt forhold mellem datasættene x og y.
  3. Forstå manglen på et forhold. Hvis dit resultat er en kovarians lig med eller meget tæt på 0, kan du konkludere, at datapunkterne ikke er relateret. Det vil sige, en stigning i den ene værdi kan, men behøver ikke at resultere i en stigning i den anden. De to udtryk er næsten tilfældigt forbundet.
    • Antag at du relaterer skostørrelser til eksamensklasser. Fordi der er så mange faktorer, der påvirker en studerendes eksamenskarakterer, kan der forventes en covarians-score tæt på 0. Dette indikerer, at der næsten ikke er nogen sammenhæng mellem de to værdier.
  4. Se forholdet grafisk. For at visuelt forstå kovarians kan du plotte dine datapunkter på en x, y-graf. Når du gør det, skal du se ganske let, at punkterne, selvom de ikke er lige i en lige linje, har tendens til at nærme sig en klynge i en diagonal linje fra øverst til venstre til nederst til højre. Dette er beskrivelsen af ​​en negativ kovarians. Du kan også se, at værdien af ​​kovariansen er lig med -8.07. Dette er et stort antal i forhold til datapunkterne. Det høje tal antyder, at kovariansen er ret stærk, hvilket du kan udlede af datapunkternes lineære form.
    • For at gå igennem dette igen skal du læse artikler om tegningspunkter i et koordinatsystem på wikiHow.

Advarsler

  • Covariance har begrænset anvendelse inden for statistik. Det er ofte et skridt i retning af beregning af korrelationskoefficienter eller andre begreber. Vær forsigtig med alt for dristige fortolkninger baseret på en kovarians score.