Hvordan bruger man tokenizere i Hugging Face Transformers?

Natural Language Processing (NLP) opererer på den rå form af data. Maskinlæringsmodeller trænes på komplekse data, men de kan ikke forstå rådata. Denne rå form for data skal have en eller anden numerisk værdi forbundet med sig. Denne værdi bestemmer værdien og betydningen af ordet i dataene, og på dette grundlag udføres beregninger.

Denne artikel giver en trin-for-trin guide til brug af Tokenizers i Hugging Face Transformers.

Hvad er en Tokenizer?

Tokenizer er et vigtigt koncept i NLP, og dets hovedformål er at oversætte den rå tekst til tal. Der er forskellige teknikker og metoder til stede til dette formål. Det er dog værd at bemærke, at hver teknik tjener et bestemt formål.
Hvordan bruger man tokenizere i Hugging Face Transformers?

Hvordan bruger man tokenizere i Hugging Face Transformers?

Tokenizer-biblioteket skal først installeres, før du bruger det og importerer funktioner fra det. Træn derefter en model ved hjælp af AutoTokenizer, og giv derefter input til at udføre tokenisering.

Hugging Face introducerer tre hovedkategorier af tokenisering, som er angivet nedenfor:

Ord-baseret Tokenizer
Karakterbaseret Tokenizer
Underord-baseret Tokenizer

Her er en trin-for-trin guide til at bruge Tokenizers i Transformers:

Trin 1: Installer Transformers
For at installere transformere skal du bruge pip-kommandoen i følgende kommando:

! pip installere transformere

Trin 2: Importer klasser
Fra transformere, import rørledning , og AutoModelForSequenceClassification bibliotek til at udføre klassifikation:

fra transformere import pipeline, AutoModelForSequenceClassification

Trin 3: Importer model
Det ' AutoModelForSequenceClassification ” er en metode, der hører til Auto-Class til tokenisering. Det from_pretrained() metode bruges til at returnere den korrekte modelklasse baseret på modeltypen.

Her har vi angivet navnet på modellen i ' modelnavn variabel:

modelnavn = 'distilbert-base-uncased-finetuned-sst-2-engelsk'
før_træningsmodel =AutoModelForSequenceClassification.from_pretrained ( modelnavn )

Trin 4: Importer AutoTokenizer
Angiv følgende kommando for at generere tokens ved at sende ' modelnavn ' som argumentet:

fra transformere importerer AutoTokenizer

det genererede token =AutoTokenizer.from_pretrained ( modelnavn )

Trin 5: Generer token
Nu vil vi generere tokens på en sætning “Jeg elsker god mad” ved at bruge ' det genererede token variabel:

ord =generertoken ( 'Jeg elsker god mad' )
Print ( ord )

Udgangen er givet som følger:

Koden til ovenstående Google Co er givet her.

Konklusion

For at bruge Tokenizers i Hugging Face skal du installere biblioteket ved hjælp af pip-kommandoen, træne en model ved hjælp af AutoTokenizer og derefter give input til at udføre tokenisering. Ved at bruge tokenisering kan du tildele vægte til ordene baseret på hvilke de er sekvenseret for at bevare sætningens betydning. Denne score bestemmer også deres værdi for analyse. Denne artikel er en detaljeret guide til, hvordan du bruger Tokenizers i Hugging Face Transformers.

Hvordan bruger man tokenizere i Hugging Face Transformers?

Hvad er en Tokenizer?

Hvordan bruger man tokenizere i Hugging Face Transformers?

Konklusion

Kategori

Populære Indlæg

Sådan bruger du Get-FileHash PowerShell Cmdlet

MELLEM Operatør i Oracle

Sådan fjerner du Gmail-synkroniseringskontakter på Android

Sådan udføres PostgreSQL Auto Increment

Forståelse og anvendelse af AI-opgaver i Botpress

C#-program til at finde kvadratroden af et tal

Arduino Return-funktion – Sådan bruges Return i Arduino

Eksempler på C++ (Cpp) StringBuilder

Sådan installeres og bruges Netstat på Rocky Linux 9

Sådan skriver du enhedstests i C# for bedre kodekvalitet

Tableau-kort: En vejledning

Sådan sikrer og beskytter Android-fotos og -videoer

Hvordan bruger man Clear-ItemProperty Cmdlet'en til at rydde en vares ejendom i PowerShell?

Hvad er Bighead og Bighead-serien i Roblox

Sådan ændres baggrundsbillede i JavaScript

Sådan downloades og installeres Realtek High-Definition Audio Driver Windows 11?

Sådan fjerner du Discover Bar på Android

Hvad står Vcc for i Arduino

Array.findIndex() i ES6

Integer Division Java