Sample() Funktion i R

Sample Funktion I R



I R får vi tilfældigt stikprøveværdier fra en vektor eller en liste ved hjælp af sample()-funktionen. Det giver os mulighed for tilfældigt at vælge en delmængde af data, som er nyttig i mange statistiske applikationer. Hvis inputtet er en liste i sample()-funktionen, vil outputtet også være en liste med det samme antal elementer, men med de valgte elementer. Denne artikel demonstrerer sample()-funktionen af ​​R med implementeringen, der sætter de forskellige argumenter.

Eksempel 1: Brug af funktionen Sample() med dataargumentet

Sample()-funktionen af ​​R skal forsynes med prøvedataene for tilfældigt at generere et tal. Eksempeldataene er det påkrævede argument for sample()-funktionen, hvis kode er angivet i følgende:

dataX < - c ( 10 , tyve , 30 , 40 , halvtreds , 60 , 70 , 80 , 90 , 100 )

prøve ( dataX , 3 )

prøve ( dataX , 3 )

Her genererer vi først vektorerne for heltalselementerne i 'dataX'-variablen. Dernæst kalder vi sample()-funktionen to gange i koden og sender 'dataX'-vektoren, som vi tidligere genererede som et argument, til den. Den første brug af prøven (dataX, 3) tager en tilfældig prøve af tre elementer fra 'dataX'-vektoren. Resultaterne er en tilfældig permutation af tre elementer fra 'dataX'. Derefter bruger vi prøven (a, 5) igen, som tager en anden uafhængig tilfældig stikprøve af tre elementer fra 'dataX' vektoren. Denne gang er resultatet helt anderledes end sidst.







Outputtet viser de forskellige elementer ved at kalde sample()-funktionen to gange. Bemærk, at hver gang vi opretter prøven tilfældigt, opnås forskellige elementer fra vektorerne:





Eksempel 2: Brug af Sample()-funktionen med Erstat-argumentet

Desuden har vi 'erstat'-argumentet for sample()-funktionen, som tager de logiske værdier. Et lignende element kan vælges mere end én gang, hvis elementet er samplet med erstatningsindstillingen, TRUE. Men hvis værdien er sat til FALSE, kan der kun være ét valg af hvert element, som får elementerne til at blive samplet uden udskiftning.





tilfældige_tal = c ( elleve , 25 , 12 , 89 , Fire, fem , 16 , 67 , 38 , 96 , 55 , 73 )

prøve ( tilfældige_tal , 4 , erstatte = RIGTIGT )

prøve ( tilfældige_tal , 5 , erstatte = RIGTIGT )

Her definerer vi først vektoren med nogle numeriske værdier i variablen 'random_numbers'. Derefter kalder vi sample()-funktionen, hvor 'random_numbers' sendes som et argument. Værdien af ​​'4' er specificeret til sample()-funktionen, som angiver, at den kun vælger fire tilfældige værdier fra vektorerne i 'random_numbers'.

Dernæst specificerer replace=TRUE i sample()-funktionen, at hver værdi kan vælges mere end én gang. Derefter implementerer vi sample()-funktionen igen, som vælger '5' tilfældige værdier fra vektorerne denne gang. På samme måde sætter vi erstatningsargumentet med 'TRUE' som før for de flere valgmuligheder for hver værdi.



Som vi kan se, viser det første output vektoren af ​​4 tilfældigt udvalgte elementer fra 'random_numbers' vektoren. Det næste output viser dog en vektor af '5' tilfældigt udvalgte elementer:

Eksempel 3: Brug af funktionen Sample() med Størrelsesargumentet

Det næste argument, som funktionen sample() passerer, er 'størrelsen'. 'Størrelsen' er en valgfri parameter, der angiver værdien af ​​prøver, der skal udtages. Koden for sample()-funktionen med parameteren 'size' er givet i følgende:

vektorer < - 1 : 10

prøve ( vektorer , størrelse = 5 )

Her er en numerisk vektor defineret som en sekvens af heltal fra 1 til 10 i variablen 'vektorer'. Sample()-funktionen bruges derefter til at vælge tilfældige elementer fra vektoren. Som vi kan se, tager funktionen sample() to argumenter. Det første argument er de vektorer, som vi får prøven fra. Det næste argument er størrelsen, som er angivet med værdien '5', hvilket indikerer, at der kun er fem elementer at vælge fra vektoren.

Derfor returneres de valgte elementer i en tilfældig rækkefølge som en ny vektor i følgende output:

Eksempel 4: Brug af funktionen Sample() til R-listen

Desuden kan sample()-funktionen bruges til listen i R. Denne del af eksemplet får tilfældige værdier fra listen.

R_liste < - liste ( 1 : 4 ,

913 ,

c ( 'X' , 'ÅÅÅ' , 'GODT' ) ,

'ZZZ' ,

5 )

resultat < - R_liste [ prøve ( 1 :længde ( R_liste ) , størrelse = 4 ) ]

resultat

Her er listen over 'R_list' defineret med elementer af forskellige typer, herunder en vektor af numeriske tal, et enkelt tal, en tegnvektor, en streng og et andet tal. Derefter opretter vi en 'resultat'-variabel, hvor sample()-funktionen aktiveres.

Inde i sample()-funktionen sætter vi udtrykket '1:length(R_list)', som angiver vektorerne for indekser, der skal prøves igennem. Dernæst har vi et 'størrelse'-argument til at angive antallet af elementer, der skal samples, hvilket er '4'. Derfor genererer 'R_list' tre tilfældigt udvalgte elementer fra listen over 'R_list'. Da elementerne i listen over 'R_list' er af forskellige typer, kan de resulterende elementer i 'resultat' også være af forskellige typer.

Outputtet repræsenterer den nye liste, som indeholder en tilfældig delmængde af den oprindelige liste:

Eksempel 5: Brug af Sample()-funktionen med Prob-argumentet

Derudover har vi parameteren 'prob' for sample()-funktionen. Argumentet 'sandsynlighed' giver sandsynligheden for det valgte element i vektoren. Bemærk, at alle elementer antages at have samme sandsynlighed, når 'sandsynlighed'-argumentet ikke bruges.

mine_data = c ( 31 , 99 , 5 , 24 , 72 )

prøve ( mine_data , størrelse = 10 , erstatte = RIGTIGT ,

sandsynlighed = c ( 0,5 , rep ( 0,1 , 4 ) ) )

Her henvises elementerne til numeriske vektorer til 'min_data'. I det næste trin kalder vi sample()-funktionen, hvor 'my_data' sendes til tilfældigt udvalgte 10 elementer fra den. Derefter defineres 'størrelse'-argumentet, som specificerer, at den værdi, der skal vælges tilfældigt, skal være i størrelsen '10'. Derefter tildeler vi 'TRUE' til 'erstat'-argumentet, hvilket betyder, at hvert valgt element erstattes i vektoren, før det næste vælges. Det tredje argument, der er defineret i sample()-funktionen er 'sandsynlighed', som definerer sandsynligheden for, at hvert element i 'min_data'-vektoren skal vælges. Sandsynligheden for det første element er sat til '0,5'. For de resterende fire vektorelementer er sandsynligheden '0,1'.

Følgende output hentes med den højeste sandsynlighed for det første element i vektorerne som forventet:

Eksempel 6: Brug af funktionen Sample() til at gengive barplotten

Til sidst bruges sample()-funktionen til at konstruere barplotten i R for at visualisere fordelingen af ​​en kategorisk variabel med en given sandsynlighedsfordeling.

sample_data = c ( 1 , 2 , 3 )

barplot ( bord ( prøve ( sample_data , størrelse = 500 , erstatte = RIGTIGT , sandsynlighed = c ( .30 , .60 , .10 ) ) ) )

Her, efter at have defineret 'sample_data' med vektoren af ​​en heltalsværdi, genererer vi barplotten ved at implementere sample()-funktionen. Først kalder vi barplotten, som påkalder funktionen table() for at skabe en frekvenstabel for den resulterende prøve. Derefter specificerer vi sample()-funktionen i table()-funktionen, hvor en tilfældig stikprøve af størrelse 1000 er trukket fra en vektor med heltal 1 til 3. Derefter bruges 'sandsynlighed'-argumentet til at specificere sandsynligheden for at vælge hvert heltal .

Som vi kan se nu, er barplotten gengivet i det følgende med de tre søjler, en for hvert heltal, og højden af ​​søjlerne er relevant for det heltal, der forekommer i prøven:

Konklusion

Vi har set, hvordan sample()-funktionen fungerer med forskellige eksempler. Sample()-funktionen bruges med forskellige argumenter, hvor eksempeldata er påkrævet, og alle de andre argumenter er valgfrie og kaldes på specifikke tilfælde. Men funktionen sample() er nyttig i statistisk analyse eller når du arbejder med store datasæt.