Hvordan bruger man tokenizere i Hugging Face Transformers?

Hvordan Bruger Man Tokenizere I Hugging Face Transformers



Natural Language Processing (NLP) opererer på den rå form af data. Maskinlæringsmodeller trænes på komplekse data, men de kan ikke forstå rådata. Denne rå form for data skal have en eller anden numerisk værdi forbundet med sig. Denne værdi bestemmer værdien og betydningen af ​​ordet i dataene, og på dette grundlag udføres beregninger.

Denne artikel giver en trin-for-trin guide til brug af Tokenizers i Hugging Face Transformers.

Hvad er en Tokenizer?

Tokenizer er et vigtigt koncept i NLP, og dets hovedformål er at oversætte den rå tekst til tal. Der er forskellige teknikker og metoder til stede til dette formål. Det er dog værd at bemærke, at hver teknik tjener et bestemt formål.
Hvordan bruger man tokenizere i Hugging Face Transformers?







Hvordan bruger man tokenizere i Hugging Face Transformers?

Tokenizer-biblioteket skal først installeres, før du bruger det og importerer funktioner fra det. Træn derefter en model ved hjælp af AutoTokenizer, og giv derefter input til at udføre tokenisering.



Hugging Face introducerer tre hovedkategorier af tokenisering, som er angivet nedenfor:



  • Ord-baseret Tokenizer
  • Karakterbaseret Tokenizer
  • Underord-baseret Tokenizer

Her er en trin-for-trin guide til at bruge Tokenizers i Transformers:





Trin 1: Installer Transformers
For at installere transformere skal du bruge pip-kommandoen i følgende kommando:

! pip installere transformere



Trin 2: Importer klasser
Fra transformere, import rørledning , og AutoModelForSequenceClassification bibliotek til at udføre klassifikation:

fra transformere import pipeline, AutoModelForSequenceClassification

Trin 3: Importer model
Det ' AutoModelForSequenceClassification ” er en metode, der hører til Auto-Class til tokenisering. Det from_pretrained() metode bruges til at returnere den korrekte modelklasse baseret på modeltypen.

Her har vi angivet navnet på modellen i ' modelnavn variabel:

modelnavn = 'distilbert-base-uncased-finetuned-sst-2-engelsk'
før_træningsmodel =AutoModelForSequenceClassification.from_pretrained ( modelnavn )

Trin 4: Importer AutoTokenizer
Angiv følgende kommando for at generere tokens ved at sende ' modelnavn ' som argumentet:

fra transformere importerer AutoTokenizer

det genererede token =AutoTokenizer.from_pretrained ( modelnavn )

Trin 5: Generer token
Nu vil vi generere tokens på en sætning “Jeg elsker god mad” ved at bruge ' det genererede token variabel:

ord =generertoken ( 'Jeg elsker god mad' )
Print ( ord )

Udgangen er givet som følger:

Koden til ovenstående Google Co er givet her.

Konklusion

For at bruge Tokenizers i Hugging Face skal du installere biblioteket ved hjælp af pip-kommandoen, træne en model ved hjælp af AutoTokenizer og derefter give input til at udføre tokenisering. Ved at bruge tokenisering kan du tildele vægte til ordene baseret på hvilke de er sekvenseret for at bevare sætningens betydning. Denne score bestemmer også deres værdi for analyse. Denne artikel er en detaljeret guide til, hvordan du bruger Tokenizers i Hugging Face Transformers.