De chi-kvadrattest of independence utvärderar om det finns ett samband mellan kategorierna av de två variablerna. Det finns i princip två typer av slumpvariabler och de ger två typer av data: numeriska och kategoriska. I R programmeringsspråk Chi-kvadratstatistik används för att undersöka om fördelningar av kategoriska variabler skiljer sig från varandra. Chi-kvadrattestet är också användbart när man jämför sammanställningarna eller antalet kategoriska svar mellan två (eller flera) oberoende grupper.
I R Programming Language är funktionen som används för att utföra ett chi-kvadrattest chisq.test()>
.
Syntax:
chisq.test(data)
git add --allParametrar:
data : data är en tabell som innehåller räkningsvärden för variablerna i tabellen.
Vi kommer att ta undersökningsdata i MASS>
bibliotek som representerar data från en undersökning gjord på studenter.
R
# load the MASS package> library> (MASS)> print> (> str> (survey))> |
>
java lägga till i en array
>
Produktion:
'data.frame': 237 obs. of 12 variables: $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ... $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ... $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ... $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ... $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ... $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ... $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ... $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ... $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ... $ Height: num 173 178 NA 160 165 ... $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ... $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>
Resultatet ovan visar att datasetet har många faktorvariabler som kan betraktas som kategoriska variabler. För vår modell kommer vi att överväga variablerna Exer och Rök .Spalten Rök registrerar elevernas rökvanor medan kolumnen Exer registrerar deras träningsnivå. Vårt syfte är att testa hypotesen om elevernas rökvana är oberoende av deras träningsnivå på signifikansnivån 0,05.
R
# Create a data frame from the main data set.> stu_data => data.frame> (survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data => table> (survey$Smoke,survey$Exer)> > print> (stu_data)> |
>
>
Produktion:
Freq None Some Heavy 7 1 3 Never 87 18 84 Occas 12 3 4 Regul 9 1 7>
Och slutligen tillämpar vi chisq.test()>
funktion till beredskapstabellen stu_data.
R
läs excel-fil i java
# applying chisq.test() function> print> (> chisq.test> (stu_data))> |
>
>
Produktion:
Pearson's Chi-squared test data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>
Eftersom p-värdet 0,4828 är högre än 0,05 drar vi slutsatsen att rökvanan är oberoende av elevens träningsnivå och att det därför finns en svag eller ingen korrelation mellan de två variablerna. Den fullständiga R-koden ges nedan.
vad är viloläge
Så sammanfattningsvis kan man säga att det är väldigt enkelt att utföra ett chi-kvadrattest med R. Man kan utföra denna uppgift med hjälp av chisq.test()>
funktion i R.
Visualisera Chi-Square Test-data
R
# Load required library> library> (MASS)> # Print structure of the survey dataset> print> (> str> (survey))> # Create a data frame for smoking and exercise columns> stu_data <-> data.frame> (survey$Smoke, survey$Exer)> stu_data <-> table> (survey$Smoke, survey$Exer)> # Print the table> print> (stu_data)> # Perform the Chi-Square Test> chi_result <-> chisq.test> (stu_data)> print> (chi_result)> # Visualize the data with a bar plot> barplot> (stu_data, beside => TRUE> , col => c> (> 'lightblue'> ,> 'lightgreen'> ),> > main => 'Smoking Habits vs Exercise Levels'> ,> > xlab => 'Exercise Level'> , ylab => 'Number of Students'> )> # Add legend separately> legend> (> 'center'> , legend => rownames> (stu_data), fill => c> (> 'lightblue'> ,> 'lightgreen'> ))> |
>
>
Produktion:

Chi-Square Test i R
I den här koden använder viMASS>
biblioteket för att genomföra ett Chi-Square-test på datasetet 'enkät', med fokus på sambandet mellan rökvanor och träningsnivåer.
Den skapar en beredskapstabell, utför det statistiska testet och visualiserar data med hjälp av ett stapeldiagram. Legenden läggs till separat i det övre vänstra hörnet, och skiljer mellan olika rökvanor med distinkta färger.
Koden syftar till att utforska och kommunicera sambanden mellan rökbeteende och träningsmetoder inom datasetet.