Bestem korrelationskoefficienten

Forfatter: Morris Wright
Oprettelsesdato: 28 April 2021
Opdateringsdato: 19 Juni 2024
Anonim
Lineær regression, matematik c
Video.: Lineær regression, matematik c

Indhold

Korrelationskoefficienten, betegnet r eller ρ, er målingen for den lineære korrelation (forholdet, både i styrke og retning) mellem to variabler. Det varierer fra -1 til +1 ved hjælp af plus- og minustegn for at repræsentere den positive og negative korrelation. Hvis korrelationskoefficienten er nøjagtig -1, er forholdet mellem de to variabler fuldstændig negativt; hvis korrelationskoefficienten er nøjagtigt +1, er forholdet helt positivt. To variabler kan have en positiv korrelation, en negativ korrelation eller slet ingen korrelation. Du kan beregne korrelationen manuelt ved hjælp af nogle af de gratis korrelationsberegninger, der er tilgængelige online, eller ved hjælp af de statistiske funktioner i en god grafregner.

At træde

Metode 1 af 4: Beregn korrelationskoefficienten manuelt

  1. Indsaml først dine data. For at begynde at beregne en effektiv korrelation skal du først undersøge dataparene. Det er nyttigt at lægge dem i en tabel, både lodret og vandret. Mærk hver række eller kolonne x og y.
    • Antag for eksempel, at du har fire datapar til x og y. Tabellen kan så se sådan ud:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. Beregn gennemsnittet af x. For at beregne middelværdien har du brug for alle værdier af x tilføj og divider derefter med antallet af værdier.
    • Brug eksemplet ovenfor til at bemærke, at du har fire værdier til x. For at beregne gennemsnittet tilføjer du alle værdierne x og divider det med 4. Beregningen ser sådan ud:
    • μx=(1+2+4+5)/4{ displaystyle mu _ {x} = (1 + 2 + 4 + 5) / 4}Find gennemsnittet af y. Til gennemsnittet af y For at finde det skal du følge de samme trin, tilføje alle værdierne af y sammen og derefter dividere med antallet af værdier.
      • I eksemplet ovenfor har du også fire værdier for y. Tilføj alle disse værdier sammen, og del dem derefter med 4. Beregningerne vil se sådan ud:
      • μy=(1+3+5+7)/4{ displaystyle mu _ {y} = (1 + 3 + 5 + 7) / 4}Bestem standardafvigelsen for x. Når du har fået dine midler, kan du beregne standardafvigelsen. For at gøre dette skal du bruge formlen:
        • σx=1n1Σ(xμx)2{ displaystyle sigma _ {x} = { sqrt {{ frac {1} {n-1}} Sigma (x- mu _ {x}) ^ {2}}}}Beregn standardafvigelsen for y. Brug de samme grundlæggende trin til at finde standardafvigelsen på y. Du skal bruge den samme formel ved hjælp af datapunkterne for y.
          • Med eksempeldataene vil dine beregninger se sådan ud:
          • σy=141((14)2+(34)2+(54)2+(74)2){ displaystyle sigma _ {y} = { sqrt {{ frac {1} {4-1}} * ((1-4) ^ {2} + (3-4) ^ {2} + ( 5-4) ^ {2} + (7-4) ^ {2})}}}Gennemgå den grundlæggende formel til bestemmelse af en korrelationskoefficient. Formlen til beregning af en korrelationskoefficient bruger middel, standardafvigelser og antallet af par i et datasæt (repræsenteret af n). Selve korrelationskoefficienten er repræsenteret af små bogstaver r eller det græske bogstav ρ (rho). I denne artikel bruger vi formlen kendt som Pearson-korrelationskoefficienten som vist nedenfor:
            • ρ=(1n1)Σ(xμxσx)(yμyσy){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } højre) * venstre ({ frac {y- mu _ {y}} { sigma _ {y}}} højre)}Bestem korrelationskoefficienten. Du har nu midlerne og standardafvigelserne til dine variabler, så du kan gå videre til formlen for korrelationskoefficient. Huske på, at n repræsenterer antallet af værdier, du har. Du har allerede udarbejdet de andre relevante oplysninger i ovenstående trin.
              • Ved hjælp af eksempeldataene kan du indtaste dataene i korrelationskoefficientformlen og beregne dem som følger:
              • ρ=(1n1)Σ(xμxσx)(yμyσy){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } højre) * venstre ({ frac {y- mu _ {y}} { sigma _ {y}}} højre)}Fortolker resultatet. For dette datasæt er korrelationskoefficienten 0,988. Dette nummer fortæller dig to ting om dataene. Se på tegnet på nummeret og størrelsen på nummeret.
                • Da korrelationskoefficienten er positiv, kan du sige, at der er en positiv korrelation mellem x-data og y-data. Dette betyder, at hvis x-værdierne stiger, forventer du også, at y-værdierne stiger.
                • Da korrelationskoefficienten er meget tæt på +1, er x-data og y-data meget tæt relaterede. Hvis du skulle tegne disse punkter, ville du se, at de er en meget god tilnærmelse til en lige linje.

Metode 2 af 4: Brug af online korrelationsberegnere

  1. Søg online efter korrelationsberegnere. Måling af korrelation er en forholdsvis standard beregning for statistikere. Beregningen kan blive meget kedelig for store datasæt, hvis det gøres manuelt. Derfor har mange kilder gjort fælles korrelationsberegninger tilgængelige online. Brug en hvilken som helst søgemaskine, og indtast søgeudtrykket "korrelationsberegner".
  2. Indtast dataene. Læs instruktionerne på hjemmesiden omhyggeligt, så du kan indtaste dataene korrekt. Det er vigtigt, at datapar holdes i orden, ellers får du et forkert korrelationsresultat. Forskellige websteder bruger forskellige formater til at indtaste data.
    • For eksempel på webstedet http://ncalculators.com/statistics/correlation-coefficient-calculator.htm finder du en vandret boks til indtastning af x-værdier og en anden vandret boks til indtastning af y-værdier. Du indtaster vilkårene, kun adskilt med kommaer. Således skal x-datasættet beregnet tidligere i denne artikel indtastes som 1,2,4,5. Y-datasættet indtastes som 1,3,5,7.
    • På et andet sted, http://www.alcula.com/calculators/statistics/correlation-coefficient/, kan du indtaste data vandret eller lodret, så længe du holder datapunkterne i orden.
  3. Beregn resultaterne. Disse beregningssteder er populære, fordi du efter indtastning af data normalt kun behøver at klikke på knappen "Beregn" - resultatet vises automatisk.

Metode 3 af 4: Brug af en grafregner

  1. Indtast dine oplysninger. På din grafregner skal du aktivere statistikfunktionen og derefter vælge kommandoen "Rediger".
    • Hver lommeregner har lidt forskellige tastekommandoer. Denne artikel indeholder de specifikke instruktioner til Texas Instruments TI-86.
    • For at få adgang til Stat-funktionen skal du trykke på [2nd] -Stat (over "+") og derefter trykke på F2-Edit.
  2. Slet alle gamle gemte data. De fleste regnemaskiner gemmer de statistiske data, indtil de ryddes. For at sikre, at du ikke forveksler gamle data med nye data, skal du først slette alle tidligere gemte oplysninger.
    • Brug piletasterne til at flytte markøren for at fremhæve kategorien "xStat". Tryk derefter på "Ryd" og "Enter. Dette skal rydde alle værdier i xStat-kolonnen.
    • Brug piletasterne til at fremhæve kategorien "yStat". Tryk på "Ryd" og "Enter" for også at rydde dataene for den pågældende kolonne.
  3. Indtast dine dataværdier. Brug piletasterne til at flytte markøren til det første mellemrum under xStat-overskriften. Indtast din første dataværdi, og tryk derefter på Enter. Du skal se mellemrummet nederst på skærmen "xStat (1) = __", hvor din værdi udfylder det tomme rum. Når du trykker på Enter, udfyldes dataene i tabellen, markøren flytter til den næste linje, og linjen nederst på skærmen skal nu læse "xStat (2) = __".
    • Fortsæt med at indtaste alle x-værdier.
    • Når du har indtastet x-værdierne, skal du bruge piletasterne til at flytte til yStat-kolonnen og indtaste y-værdierne.
    • Når alle data er indtastet, skal du trykke på Afslut for at rydde skærmen og afslutte Stat-menuen.
  4. Beregn de lineære regressionsstatistikker. Korrelationskoefficienten er et mål for, hvor tæt dataene tilnærmer sig en lige linje. En grafregner med statistiske funktioner kan beregne den bedste pasningslinje og korrelationskoefficient meget hurtigt.
    • Gå ind i stat-funktionen, og tryk derefter på Calc-knappen. På TI-86 er dette [2.] [Stat] [F1].
    • Vælg de lineære regressionsberegninger. På TI-86 er dette [F3] mærket "LinR." Grafikdisplayet viser derefter linjen "LinR _" med en blinkende markør.
    • Du skal nu indtaste navnene på de to variabler, du vil beregne. Disse er xStat og yStat.
      • På TI-86 skal du vælge navnelisten ("Navne") ved at trykke på [2.] [Liste] [F3].
      • Den nederste linje på din skærm skal nu vise de tilgængelige variabler. Vælg [xStat] (dette er sandsynligvis knappen F1 eller F2), indtast derefter et komma og derefter [yStat].
      • Tryk på Enter for at beregne dataene
  5. Fortolker resultaterne. Når du trykker på Enter, beregner regnemaskinen straks følgende oplysninger for de data, du indtastede:
    • y=-en+bx{ displaystyle y = a + bx}Forstå begrebet korrelation. Korrelation refererer til det statistiske forhold mellem to størrelser. Korrelationskoefficienten er et enkelt tal, som du kan beregne for to sæt datapunkter. Tallet er altid noget mellem -1 og +1 og angiver, hvor tæt de to datasæt er.
      • For eksempel, hvis du målte højden og alderen på børn op til omkring 12 år, ville du forvente at finde en stærk positiv sammenhæng. Når børn bliver ældre, har de en tendens til at blive højere.
      • Et eksempel på en negativ sammenhæng er at sammenligne den tid nogen bruger til at øve golf med den persons golfscore. Efterhånden som øvelsen skrider frem, skal resultatet falde.
      • I sidste ende ville du forvente lidt sammenhæng, positiv eller negativ, mellem en persons skostørrelse for eksempel og deres eksamenskarakterer.
    • Beregn gennemsnittet. Det aritmetiske gennemsnit eller "middel" for et datasæt beregnes ved at tilføje alle værdierne for dataene og derefter dividere med antallet af værdier i sættet. For at bestemme korrelationskoefficienten for dine data skal du beregne gennemsnittet for hvert datasæt.
      • Gennemsnittet af en variabel er angivet med variablen med en vandret linje over den. Dette omtales ofte som "x-bar" eller "y-bar" for datasættene x og y. Alternativt kan middelværdien betegnes med det græske små bogstav μ (mu). For at angive gennemsnittet af datapunkter på x kan du f.eks. Bruge μx eller μ (x).
      • For eksempel, hvis du har et sæt x (1,2,5,6,9,10), beregnes gennemsnittet af disse data som følger:
        • μx=(1+2+5+6+9+10)/6{ displaystyle mu _ {x} = (1 + 2 + 5 + 6 + 9 + 10) / 6}Kend vigtigheden af ​​standardafvigelsen. I statistikker måler standardafvigelsen variationen og viser spredningen af ​​tallene fra gennemsnittet. En gruppe af tal med lav standardafvigelse er ret tæt på hinanden. En gruppe af tal med en høj standardafvigelse er mere spredt.
          • Som et symbol udtrykkes standardafvigelsen ved hjælp af små bogstaver s eller det græske bogstav σ (sigma). Standardafvigelsen af ​​x-data skrives således som sx eller σx.
        • Genkend summeringsnotationen. Summationsoperatoren er en af ​​de mest almindelige operatorer i matematik, og den angiver en sum af værdier. Det er repræsenteret af det græske store bogstav, sigma eller ∑.
          • For eksempel, hvis du har en samling af datapunkter x (1,2,5,6,9,10), betyder ∑x:
            • 1+2+5+6+9+10 = 33

Tips

  • Korrelationskoefficienten kaldes undertiden "Pearson produkt-øjeblik-korrelationskoefficienten" til ære for Karl Pearson, dets udvikler.
  • Generelt repræsenterer en korrelationskoefficient højere end 0,8 (positiv eller negativ) en stærk korrelation; en korrelationskoefficient lavere end 0,5 (positiv eller negativ igen) repræsenterer en svag korrelationskoefficient.

Advarsler

  • Korrelation viser, at to datasæt er forbundet på en eller anden måde. Vær dog forsigtig med ikke at fortolke dette som en årsagssammenhæng. For eksempel, hvis du sammenligner folks skostørrelser og deres højde, vil du sandsynligvis finde en stærk positiv sammenhæng. Større mennesker har generelt større fødder. Dette betyder dog ikke, at det at få høje får dine fødder til at vokse, eller at store fødder får dig til at vokse høj. De sker bare sammen.