Hugging Face Filter() Metode

Hugging Face Filter Metode



Hugging Face har adskillige NLP-modeller (natural language processing) og datasæt. Disse enorme datasæt indeholder meget information, der hjælper med at træne modellen nøjagtigt. Men nogle gange har vi ikke brug for hele datasættet, fordi vi kun har brug for en lille del af det for at opfylde vores nuværende behov. Hvis vi vil bruge det samme datasæt som normalt med al information, tager modeltræningen og optimeringen meget tid, hvilket er spild af tid.

Så vi har brug for en form for metode eller pakke, der kan udtrække den relevante information fra datasættene. I et enkelt sprog kan vi sige, at vi har brug for en ekstra filtermulighed for at filtrere datasættene i henhold til vores krav.

Hugging Face giver forskellige muligheder for at filtrere datasættene, hvilket hjælper brugerne med at skabe de tilpassede datasæt, der kun indeholder eksempler eller information, der opfylder specifikke betingelser.







Vælg() metode

Denne metode fungerer på en liste over indekser, hvilket betyder, at vi skal definere en liste. Inde i den liste skal vi nævne alle de rækkers indeksværdier, som vi vil udtrække. Men denne metode virker kun for små datasæt og ikke for store datasæt, da vi ikke er i stand til at se hele datasættet, hvis det er i GBs (giga bytes) eller TBs (tera bytes).



Eksempel :

nyt_datasæt = datasæt. Vælg ( [ 0 , elleve , enogtyve , Fire, fem , halvtreds , 55 ] )

Print ( kun ( nyt_datasæt ) )

I dette eksempel brugte vi 'vælg'-metoden til at filtrere de nødvendige oplysninger fra datasættet.



Filter() metode

Filter()-metoden overvinder select()-procesproblemerne, da der ikke er nogen specifik betingelse. Filter()-metoden returnerer alle de rækker, der matcher en bestemt situation eller betingelse.





Eksempel: Vi gemmer dette Python-program med navnet 'test.py'.

fra datasæt importere load_dataset

# Trin 1: Indlæs datasættet
datasæt = load_dataset ( 'imdb' )

# Trin 2: Definer filtreringsfunktionen
def custom_filter ( eksempel ) :
'''
En tilpasset filtreringsfunktion til at bevare eksempler med positive
følelse (etiket == 1).
'''

Vend tilbage eksempel [ 'etiket' ] == 1

# Trin 3: Anvend filteret for at oprette et nyt filtreret datasæt
filtreret_datasæt = datasæt. filter ( custom_filter )

# Trin 4: Tjek de tilgængelige kolonnenavne i det filtrerede datasæt
Print ( 'Tilgængelige kolonner i det filtrerede datasæt:' ,
filtreret_datasæt. kolonnenavne )

# Trin 5: Få adgang til oplysninger fra det filtrerede datasæt
filtrerede_eksempler = filtreret_datasæt [ 'tog' ]
antal_filtrerede_eksempler = kun ( filtrerede_eksempler )

# Trin 6: Udskriv det samlede antal filtrerede eksempler
Print ( 'I alt filtrerede eksempler:' , antal_filtrerede_eksempler )

Produktion:



Forklaring:

Linje 1: Vi importerer den nødvendige load_dataset-pakke fra datasættene.

Linje 4: Vi indlæser 'imdb'-datasættet ved hjælp af load_dataset.

Linje 7 til 12: Vi definerer den brugerdefinerede filtreringsfunktion custom_filter at holde eksemplerne med positiv stemning (label == 1). Denne funktion returnerer kun de rækker, hvis etiketværdi er 1.

Linje 15: Denne linje viser, at datasættet har 'imdb' filmanmeldelsesdata. Vi anvender nu filterfunktionen på denne database for at adskille de positive anmeldelser fra databasen, som er yderligere gemt i 'filtreret_datasættet.'

Linje 18 og 19: Nu kontrollerer vi, hvilke kolonnenavne der er tilgængelige i filtered_dataset. Så 'filtered_dataset.column_names'-koden giver detaljerne om vores krav.

Linje 22 og 23: I disse linjer filtrerer vi kolonnen 'tog' i filtered_dataset og udskriver det samlede antal (længde) af togkolonnen.

Linje 26: I denne sidste linje udskriver vi resultatet fra linje nummer 23.

Filter() med indekser

Filter()-metoden kan også bruges med indekser som ses i select()-tilstanden. Men for det skal vi nævne, at nøgleordet 'with_indices=true' skal angives uden for filter()-metoden som vist i følgende eksempel:

ulige_datasæt = datasæt. filter ( lambda eksempel , idx: idx % 2 != 0 , med_indeks = Rigtigt )

Print ( kun ( ulige_datasæt ) )

I dette eksempel brugte vi filter()-metoden til at filtrere de nødvendige oplysninger fra datasættet, inklusive kun de rækker, der er ulige.

De fuldstændige detaljer for hver parameter i filter()-metoden kan findes her link .

Konklusion

Datasætbiblioteket Hugging Face giver et kraftfuldt og brugervenligt værktøjssæt til effektivt at arbejde med forskellige datasæt, især i forbindelse med Natural Language Processing (NLP) og maskinlæringsopgaver. Filter()-funktionen præsenteret i programmet giver forskerne og praktikerne mulighed for at udtrække relevante delmængder af data ved at definere de brugerdefinerede filtreringskriterier. Ved at bruge denne funktionalitet kan brugerne uden besvær skabe nye datasæt, der opfylder specifikke betingelser, såsom at bevare positive følelser i filmanmeldelser eller udtrække specifikke tekstdata.

Denne trinvise demonstration illustrerer, hvor nemt det er at indlæse et datasæt, anvende de tilpassede filterfunktioner og få adgang til de filtrerede data. Derudover giver fleksibiliteten af ​​funktionsparametrene mulighed for brugerdefinerede filtreringsoperationer, herunder understøttelse af flere behandlinger for store datasæt. Med Hugging Face-datasætbiblioteket kan brugerne strømline deres data.