Sådan installeres Tesseract på Windows

Sadan Installeres Tesseract Pa Windows



Tesseract er et frit tilgængeligt open source tekstgenkendelsesværktøj også kendt som OCR (Optical Character Recognition). Det bruges primært til at identificere og udtrække tekst fra billeder. Den læser tekst fra billeddata og skriver output i en ny .txt-fil. Tesseract arbejder også under Python, da det primært bruges til at genkende håndskrift fra billeder. Den bruger LSTR-modellen (Long short-term memory). Tesseract arbejder under Apache 2.0-licensen.

Vi vil uddybe metoden til at installere Tesseract på Windows i denne blog.







Så lad os komme i gang!



Hvordan installeres Tesseract på Windows?

Tesseract er et kommandolinjeværktøj, der bruges til tekstudtræk fra billeder. For at installere Tesseract på Windows skal du følge nedenstående instruktioner.



Trin 1: Download Tesseract Installer





For det første skal du navigere til nedenstående link og downloade Tesseract-installationsprogrammet i henhold til din systemspecifikation:

https: // github.com / UB-Mannheim / tesseract / uge



Trin 2: Kør Tesseract Installer

Besøg ' Downloads ” bibliotek, hvor Tesseract-installationsprogrammet downloades. For at installere Tesseract på Windows skal du udføre Tesseract-installationsprogrammet ved at dobbeltklikke på det:

Trin 3: Vælg sprog

Mange sprog understøttes af Tesseract-installationsprogrammet. For at interagere med installationsbrugergrænsefladen skal du vælge ' engelsk ' som dit sprog og klik på ' Okay ”:

Trin 4: Installer Tesseract

Når du gør det, vises Tesseract OCR-opsætningsguiden på skærmen. For at starte Tesseract-installationen skal du trykke på ' Næste ” knap:

At acceptere ' Licensaftale ', klik på ' Jeg er enig ” knap:

Vælg ' Installer for alle der bruger denne computer ' og tryk på ' Næste ” knap:

Hvis du vil tilføje scriptdata eller inkludere et andet sprog, skal du markere deres respektive afkrydsningsfelter og trykke på ' Næste ”-knappen. Da vi derfor ikke ønsker yderligere datascript eller sprog, fortsætter vi med standardvalgte muligheder:

Vælg installationsstedet og klik på ' Næste ” knap:

Hvis du ikke ønsker at oprette en genvej i Start-menuen, skal du markere ' Opret ikke genveje ' afkrydsningsfeltet og tryk på ' Installere ” knap:

Derefter vil Tesseract-installationen blive startet. Vent, indtil installationen er fuldført, og tryk på ' Næste ” knap:

Klik til sidst på ' Afslut ” knap:

Trin 5: Indstil miljøvariabel

Efter installationen skal du indstille miljøvariablen for Tesseract. For at gøre det skal du først besøge den mappe, hvor du har installeret Tesseract og kopiere stien fra ' Adresse ” bar:

Foretag en søgning efter ' miljøvariabler ' i ' Start op ' menu og åbn ' Rediger systemmiljøvariablerne ”:

Inde i indstillingerne skal du navigere til ' Fremskreden ' indstillingsmenu og klik på ' miljøvariabler ” knap:

Vælg ' Sti ' Variabel fra ' Systemvariabler '-panelet, og tryk på ' Redigere ” knap:

Efter det ' Rediger miljøvariabel ” vinduet vises på skærmen. Tryk på ' Ny ” knappen og indsæt den kopierede Tesseract installationsmappesti her. Klik til sidst på ' Okay ” knap:

Trin 6: Bekræft Tesseract-installationen

For at bekræfte Tesseract-installationen skal du åbne Windows kommandoprompt ved at søge ' Kommandoprompt ' i ' Start op ” menu:

Tjek Tesseract-versionen ved hjælp af den medfølgende kommando:

> tesseract --version

Nedenstående output indikerer, at vi har installeret Tesseract version ' v5.2.0 ' på Windows:

Lad os gå videre for at tjekke ud, hvordan man bruger Tesseract på Windows.

Hvordan bruger man Tesseract på Windows?

Tesseract bruges til at læse håndskrift eller udtrække tekst fra billeder. Lad os se, hvordan det virker:

Trin 1: Vælg billede

Vælg det billede, du vil udtrække tekst fra. Som vi har valgt ' 1.png ”:

Trin 2: Udtræk tekst fra billede

Når CMD er åbnet. Brug ' cd ” kommando for at ændre den mappe, hvor billedet er gemt. Kør derefter ' tesseract ' kommandoen og definer billedfilens navn, som vi har angivet ' 1.png '. Det ' Tekst ” parameter viser angiver navnet på outputfilen:

> cd C:\Users\anuma\OneDrive\Pictures\Gemte billeder
> tesseract 1 .png 'Tekst'

Trin 3: Bekræft tekstudtrækning

For at bekræfte tekstudtrækningen skal du navigere i den mappe, hvor billedfilen findes. Du kan se, at outputfilen ' Tekst ” gemmes også her. Dobbeltklik på outputfilen for at kontrollere, om tesseracten har udtrukket teksten fra billedet eller ej:

Du kan se, at vi med succes har udtrukket teksten ved hjælp af Tesseract-kommandolinjeværktøjet:

Vi har demonstreret teknikken til at installere og bruge Tesseract på Windows.

Konklusion

For at installere Tesseract på Windows, er det nødvendigt at downloade Tesseract-installationsprogrammet. Til dette formål skal du følge den første session i denne artikel. Indstil derefter Path-miljøvariablen til at bruge og få adgang til Tesseract fra Windows Kommandoprompt. Vælg derefter billedfilen og brug ' Tesseract ” kommando til at genkende og udtrække teksten fra billedet. Her har du lært at installere såvel som at bruge ' Tesseract ” på vinduer.