Få et antal kolonner i R DataFrame

Fa Et Antal Kolonner I R Dataframe



I R er det at få antallet af kolonner en grundlæggende handling, der kræves i mange situationer, når man arbejder med DataFrames. Når du undersætter, analyserer, manipulerer, publicerer og visualiserer dataene, er antallet af kolonner en vigtig information at kende. Derfor giver R forskellige tilgange til at få summen af ​​kolonnerne i den angivne DataFrame. I denne artikel vil vi diskutere nogle af de tilgange, der hjælper os med at få tal af kolonnerne i DataFrame.

Eksempel 1: Brug af Ncol()-funktionen

ncol() er den hyppigste funktion til at få summen af ​​kolonnerne i DataFrames.







df <- data.frame('y1' = c(10, 12, 14, 19),

'y2' = c(15, 22, 24, 29),
'y3' = c(25, 32, 34, 39))


n <- ncol(df)

cat('-----Antal kolonner i dataramme :', n)

I dette eksempel opretter vi først en 'df' DataFrame med tre kolonner, der er mærket som 'y1', 'y2' og 'y3' ved hjælp af data.frame()-funktionen i R. Elementerne i hver kolonne er specificeret vha. c()-funktionen, som skaber en vektor af elementer. Derefter, ved hjælp af 'n'-variablen, bruges ncol()-funktionen til at bestemme summen af ​​kolonner i 'df' DataFrame. Endelig, med den beskrivende meddelelse og 'n' variabel, udskriver den medfølgende cat() funktion resultaterne på konsollen.



Som forventet indikerer det hentede output, at den angivne DataFrame har tre kolonner:







Eksempel 2: Tæl det samlede antal kolonner for den tomme dataramme

Dernæst anvender vi funktionen ncol() på den tomme DataFrame, som også får værdierne for de samlede kolonner, men den værdi er nul.

tomme_df <- data.frame()

n <- ncol(empty_df)

cat('---Kolonner i dataramme :', n)

I dette eksempel genererer vi den tomme DataFrame, 'empty_df', ved at kalde data.frame() uden at angive nogen kolonner eller rækker. Dernæst bruger vi funktionen ncol() som bruges til at finde antallet af kolonner i DataFrame. Funktionen ncol() er sat med 'empty_df' DataFrame her for at få det samlede antal kolonner. Da 'empty_df' DataFrame er tom, har den ingen kolonner. Så outputtet af ncol(empty_df) er 0. Resultaterne vises af cat()-funktionen, som er implementeret her.



Outputtet viser værdien '0' som forventet, fordi DataFrame er tom.

Eksempel 3: Brug af funktionen Select_If() med funktionen Length()

Hvis vi ønsker at hente antallet af kolonner af en bestemt type, skal vi bruge funktionen select_if() sammen med funktionen længde() af R. Disse funktioner bruges, som kombineres for at få summen af ​​kolonnerne af hver type . Koden til at bruge disse funktioner er implementeret i følgende:

bibliotek (dplyr)

x1<-BOGSTAVER[1:10]

x2<-rpois(10,2)

x3<-rpois(10,5)

x4<-sample(c('Sommer','Vinter'),10,erstat=TRUE)

df1<-data.frame(x1,x2,x3,x4)

df1

length(select_if(df1,is.numeric))

I dette eksempel indlæser vi først dplyr-pakken, så vi kan få adgang til funktionen select_if() og funktionen length(). Derefter opretter vi de fire variabler - henholdsvis 'x1', 'x2', 'x3' og 'x4'. Her indeholder 'x1' de første 10 store bogstaver i det engelske alfabet. Variablerne 'x2' og 'x3' genereres ved hjælp af funktionen rpois() til at skabe to separate vektorer med 10 tilfældige tal med henholdsvis parameter 2 og 5. Variablen 'x4' er en faktorvektor med 10 elementer, der er tilfældigt udtaget fra vektor c ('Sommer', 'Vinter').

Derefter forsøger vi at skabe 'df1' DataFrame, hvor alle variablerne sendes i data.frame()-funktionen. Til sidst påkalder vi funktionen length() for at bestemme længden af ​​'df1' DataFrame, der er oprettet ved hjælp af select_if()-funktionen fra dplyr-pakken. Funktionen select_if() vælger kolonnerne fra en 'df1' DataFrame som et argument, og funktionen is.numeric() vælger kun de kolonner, der indeholder numeriske værdier. Derefter får funktionen length() summen af ​​kolonner, der er valgt af select_if(), som er outputtet af hele koden.

Længden af ​​kolonnen er vist i følgende output, som angiver det samlede antal kolonner i DataFrame:

Eksempel 4: Brug af Sapply()-funktionen

Omvendt, hvis vi kun ønsker at tælle de manglende værdier af kolonnerne, har vi sapply()-funktionen. Funktionen sapply() itererer over hver kolonne i DataFrame for at fungere specifikt. Funktionen sapply() sendes først med DataFrame som argument. Derefter skal handlingen udføres på den pågældende DataFrame. Implementeringen af ​​sapply()-funktionen for at få tællingen af ​​NA-værdier i DataFrame-kolonnerne er tilvejebragt som følger:

new_df <- data.frame(c1 = c(10, 11, NA, 13, NA),

c2 = c('N', NA, 'A', 'M', 'E'),
c3 = c(NA, 92, NA, NA, 95))

sapply(new_df, function(x) sum(is.na(x)))

I dette eksempel genererer vi 'new_df' DataFrame med tre kolonner - 'c1', 'c2' og 'c3'. De første kolonner, 'c1' og 'c3', indeholder de numeriske værdier inklusive nogle manglende værdier, som er repræsenteret af NA. Den anden kolonne, 'c2', indeholder tegnene inklusive nogle manglende værdier, som også er repræsenteret af NA. Derefter anvender vi sapply()-funktionen på 'new_df' DataFrame og beregner antallet af manglende værdier i hver kolonne ved hjælp af sum()-udtrykket inde i sapply()-funktionen.

Funktionen is.na() er det udtryk, der er specificeret til sum()-funktionen, som returnerer en logisk vektor, der angiver, om hvert element i kolonnen mangler eller ej. Sum()-funktionen summerer TRUE-værdierne for at tælle antallet af manglende værdier i hver kolonne.

Derfor viser outputtet de samlede NA-værdier i hver af kolonnerne:

Eksempel 5: Brug af Dim()-funktionen

Derudover ønsker vi at få de samlede kolonner sammen med rækkerne i DataFrame. Derefter giver funktionen dim() DataFrames dimensioner. Funktionen dim() tager objektet som et argument, hvis dimensioner vi ønsker at hente. Her er koden til at bruge dim()-funktionen:

d1 <- data.frame(team=c('t1', 't2', 't3', 't4'),

point=c(8, 10, 7, 4))

dæmpet (d1)

I dette eksempel definerer vi først 'd1' DataFrame, der genereres ved hjælp af data.frame()-funktionen, hvor to kolonner er sat 'team' og 'point'. Derefter aktiverer vi dim()-funktionen over 'd1' DataFrame. Funktionen dim() returnerer DataFrames antal rækker og kolonner. Derfor, når vi kører dim(d1), returnerer den en vektor med to elementer - den første afspejler antallet af rækker i 'd1' DataFrame, og den anden repræsenterer antallet af kolonner.

Outputtet repræsenterer dimensionerne af DataFrame, hvor værdien '4' angiver det samlede antal kolonner, og værdien '2' repræsenterer rækkerne:

Konklusion

Vi lærte nu, at tælle antallet af kolonner i R er en enkel og vigtig operation, der kan udføres på DataFrame. Blandt alle funktionerne er funktionen ncol() den mest bekvemme måde. Nu er vi bekendt med de forskellige måder at få antallet af kolonner fra den givne DataFrame.