Hvordan opretter man en crawler til at hente data fra S3 Bucket?

AWS Glue bruges til at opdage data, integrere data, crawle data og oprette et katalog over data i skyen. Brugeren kan oprette en crawler fra AWS Glue, der vil gennemgå data fra den givne kilde og derefter gemme dem i datakataloget for at få information. Brugeren skal kun køre crawleren, og alt andet vil blive udført af crawleren inden for få øjeblikke.

Denne vejledning vil forklare, hvordan man opretter crawlere til at hente data fra S3-bøtten.

Hvordan oprettes crawler for at hente data fra S3 Bucket?

For at oprette en webcrawler i AWS, besøg ' AWS lim ” tjeneste fra Amazon dashboard:

Klik på ' Databaser ”-knap fra afsnittet Datakatalog for at oprette en database:

Klik på ' Tilføj database knappen for at starte konfigurationen:

Indtast navnet på databasen og lad alt være som det er valgfrit, før du klikker på ' Opret database ” knap:

Databasen er blevet oprettet med succes:

Derefter skal du blot gå til ' Crawlere ” side ved at klikke på den fra venstre panel:

Klik på ' Opret crawler ” knap:

Indtast navnet på webcrawleren og klik på ' Næste ” knap:

Klik på ' Tilføj en datakilde knappen for at vælge datakilden:

Besøg S3-tjenesten for at kontrollere stien, hvor dataene er gemt:

Gå ind i S3-bøtten, hvor dataene uploades. Brugeren kan skab en spand og upload data på det fra AWS S3 dashboard:

Klik på ' Gennemse S3 knappen for at vælge stien til dataene:

Vælg mappen, der indeholder dataene, og klik derefter på ' Vælge ” knap:

S3-stien er valgt, klik nu på ' Tilføj en S3-datakilde ” knap:

Når datakilden er tilføjet, skal du blot klikke på ' Næste ” knap:

Tilføj IAM-rollen, og klik derefter på ' Næste ” knap:

Indtast den tidligere oprettede måldatabase, og skriv derefter navnet på tabellen:

Vælg On demand-planen for webcrawleren, og klik på ' Næste ” knap:

Gennemgå webcrawleren og klik på ' Opret crawler ” knap:

Webcrawleren er blevet oprettet, klik på ' Løb knappen efter at have valgt den:

Det vil tage et par øjeblikke at køre crawleren, og det vil hente data og oprette en tabel til at gemme dataene:

Gå ind i ' Tabeller ”-side fra Glue-dashboardet:

Vælg tabellen ved at klikke på dens navn:

Fortællingsdetaljerne er blevet vist indeholdende metadataene for de hentede data:

Rul ned på siden og vælg sektionen for at se tabellen med dataene:

Det handler om at oprette en crawler til at hente data fra S3-bøtten.

Konklusion

For at oprette en crawler til at hente data fra S3-bøtten skal du oprette en database på AWS Glue, hvori de crawlede data vil blive gemt. Konfigurer crawleren fra Glue-dashboardet ved at angive datakilden (S3-bøtte) og måldatabasen. Kør crawleren og hent dataene fra S3-bøtten til databasetabellen, som denne vejledning har forklaret grundigt.

Hvordan opretter man en crawler til at hente data fra S3 Bucket?

Hvordan oprettes crawler for at hente data fra S3 Bucket?

Konklusion

Kategori

Populære Indlæg

Sådan genereres SSH-nøgle i Windows 11

Hvordan kender man standard filialnavngivning i GitHub?

PostgreSQL TO_CHAR() for Dato

Sådan uploader du et tema i WordPress

Discord-installationen mislykkedes i Windows 10 (5 løsninger, der skal rettes)

Hvordan forvandler man en matrix til en rækkevektor i MATLAB?

Slet en tabel i SQL

Sådan bruges Java Math.round()-metoden

Sådan finder du maks. og min. værdi i stor datasætmatrix i MATLAB

Sådan konfigureres multiregionsreplikering med Amazon Aurora?

Hvordan bruger man Web Workers til Multithreading i JavaScript?

Eksempler på Golang-støbning

Sådan installeres Telegram på Raspberry Pi OS

ESP32 vs ESP8266 - Hvilken er bedre?

Hvad er Cloud Storage, og hvorfor skal vi bruge det?

Fjern NOT NULL-begrænsningen i Postgres

Bedste Raspberry Pi medieafspillere

Hvordan bruger man et samtalebuffervindue i LangChain?

Pandaer Konverter kategoriske værdier til Int-værdier

Send filer til e-mail via File Explorer Del-knap i Windows 10 - Winhelponline