Sådan analyseres en enkelt variabel ved hjælp af grafer i R?

Brug af visualisering til at udforske dine data effektivt

Statistisk computing hjælper os virkelig med at skabe en grafik af høj kvalitet. Valg af den rigtige type graf kan hjælpe os med at analysere vores data bedre. I denne artikel vil jeg forklare, hvordan du kan bruge R til at få det bedste visuelle ud fra en enkelt variabel-data.

Der er 4 typer af plot, som vi kan bruge til at observere en enkelt variabel-data:

· Histogrammer

· Indeks plot

· Tidsserie plot

· Lagkagediagrammer

histogrammer

Hvordan oprettes et histogram i R? Og hvilke oplysninger kan vi få fra histogram?

Histogram viser en frekvensfordeling. Det er en fantastisk graf til at vise tilstanden, spredningen og symmetrien (skævheden) for dine data. Her er et histogram på 1.000 tilfældige punkter trukket fra en normal fordeling med et gennemsnit på 2,5

# Sådan oprettes histogram i R # af Michaelino Mervisiano
datavar <-rnorm (1000,2,5)
hist (datavar, main = "Awesome Histogram", col = "Blue", prob = TRUE, xlab = "Tilfældige tal fra en normal distribution med gennemsnit 2,5")
Figur 1: Histogramresultat i R

Figur 1 viser fordelingen af ​​dataene. Vi kan se, at dataene er spredt jævnt mellem venstre og højre hale. Frekvensen viser os også, tilstanden for dataene er omkring 2 og 3. Dernæst kan du tilføje en linje nedenfor for at få en densitetskurve langs dit histogram

hist (datavar, main = ”Awesome Histogram”, col = ”Blue”, prob = TRUE, xlab = ”Tilfældige tal fra en normal fordeling med gennemsnit 2,5”) linjer (densitet (datavar), col = “rød”)
Figur 2: Histogram + densitetslinje

Indeks plot

Det andet plot, der er effektivt til at analysere en enkelt variabel-data, er indeksdiagram. Denne plottetype viser en enkelt kontinuerlig variabel og plotter værdierne på den lodrette akse, mens rækkefølgen af ​​antallet i vektor tegnes på den vandrette akse. Jeg personligt kan godt lide at bruge dette plot til fejlkontrol. I dette eksempel vil jeg bruge vores yndlingseksempeldata, Iris. Der er 150 observationer i dette datasæt, og vi vil tage kronbladets variabel som vores eneste variabel til at analysere

datavar <-iris $ Petal.Length
plot (datavar, col =”orange”)

Figur 3 viser alle observationer fra vores enkelt variabeldata. Hvis der er en outlier i vores data, vil de skille sig ud som en øm tommel. Derefter kan vi kontrollere, om dette muligvis er relateret til fejl i dataindtastningen eller skal analyseres separat.

Figur 3: Indeksdiagramresultat ved hjælp af Iris Petal Length-data

Tidsserieplaner

Hvis du har komplette data for tidsserier, vil det være meget ligetil at kortlægge det. Du kan sammenføje hver observation i et ordnet sæt y-værdier. Problemet vil dog opstå, hvis du mangler værdier i tidsserien. Du kan bruge en simpel interpolations- eller prognosemodel til at tackle problemet med manglende værdier. Til illustration vil vi bruge UK Lung Deaths fra 1974 til 1980

data (UKLungDeaths)
ts.plot (ldeaths, mdeaths, fdeaths, xlab = ”Year”, ylab = ”Deaths”, col = ”lilla”, lty = c (1: 3))

Figur 4 viser tre forskellige linjer: den øverste, solide linje viser totale dødsfald, den tungere stiplede linje viser dødsfald af mænd og den svage prikkede linje viser kvindelige dødsfald. Vi kan tydeligt se det forskellige antal dødsfald mellem kønnene. Derudover er der en stærk sæsoneffekt i dataene, da du let kan observere antallet af dødsfald toppede i midwinter.

Figur 4: Tidsseriediagram ved hjælp af UK Lung Deaths Data

Lagkagediagrammer

En af de gode brug af et cirkeldiagram er at vise forholdet mellem dele eller procentdel af en helhed. I R tager funktionspai en vektor af tal ændrer dem til proportioner og deler op cirklen baseret på den samlede andel. For det næste eksempel vil vi bruge Titanic (det er også min yndlingsfilm!) -Eksempeldata og se hvor stor billet der er som passagerklasses. Vi kan let se andelen af ​​passagerer i figur 5. Mere end en tredjedel af passagererne er besætningen. Andelen mellem første og anden klasse passagerer er meget tæt.

df <-data.frame (Titanic)
df <-df [df $ Survived == 'Yes',] datavar <-xtabs (df $ Freq ~ df $ Class) datavar
pie (datavar)
Figur 5: Cirkeldiagram ved hjælp af Titanic Passengers Data

Det handler om enkelte variabelle plot i dette indlæg. Jeg håber, at du finder det nyttigt og føler dig fri til at dele det med andre. Cheers, Michaelino Mervisiano