Hvad er Amazon Redshift-datatyperne?

Hvad Er Amazon Redshift Datatyperne



Amazon Redshift er en cloud-løsning, der tilbydes af AWS, der opfylder formålet med et datavarehus. Et datavarehus er et stort rum i skyen, der gemmer enorme mængder data. Forskellen mellem et datavarehus og en database er, at førstnævnte ikke kun gemmer aktuelle data, men også den komplette historie af dataene.

Denne artikel vil lære om Amazon Redshift af AWS og de datatyper, som denne tjeneste understøtter.







Hvad er Amazon RedShift?

Det er en cloud-løsning til data warehousing, der er baseret på 'PostgreSQL' . Den bruger en teknologi kaldet 'Massively Parallel Processing (MPP)' at behandle petabytes af data med lynets hastighed. Dette giver en nem løsning til forudsigelse i realtid baseret på historiske data og streamingløsninger.



Følgende figur viser arbejdsmekanismen for Amazon Redshift:







Denne grafiske forklaring af, hvordan Amazon Redshift fungerer, er meget enkel og overskuelig. Det giver os information om, hvordan data hentes og viderebehandles for at generere output og skabe datadrevne applikationer.

Amazon Redshifts datavarehusarkitektur kan også ses i figuren nedenfor:



Nu vil vi gå til anvendelserne og funktionerne i denne tjeneste.

Funktioner

Som allerede nævnt er Amazon Redshift baseret på PostgreSQL og bruger en teknologi kaldet Massively Parallel Processing, der gør det muligt at behandle petabytes af data på ingen tid. Derfor tilbyder Redshift en lang række funktioner og anvendelser. Nogle af disse funktioner er nedenfor:

  • Datasikkerhed og kryptering.
  • Business Analytics.
  • Datadrevet applikationssupport.
  • Prædiktiv analyse.
  • Automatiseret opgavegentagelse.
  • Samtidig dataskalering.
  • Data warehousing.

Nogle ekstra funktioner ved denne tjeneste kan ses i figuren nedenfor:

Dette var de fleste af de funktioner, som Redshift tilbyder, og nu vil vi flytte til de datatyper, der understøttes af denne tjeneste.

Datatyper

Amazon Redshift er en data warehousing-løsning med et stort antal funktioner. Det understøtter både strukturerede og ustrukturerede datatyper. Da det er baseret på PostgreSQL, kan dataene manipuleres gennem simple SQL-forespørgsler.

Nu opstår et andet spørgsmål, dvs. hvordan disse dataformater adskiller sig fra hinanden? Lad os diskutere disse to dataformater.

Strukturerede data

En højt formateret datatype, som let kan oversættes af maskinlæringsalgoritmer, kaldes strukturerede data. En SQL-database arbejder med strukturerede data. Strukturerede data er i tabelform, såsom data brugt af relationelle databaser

Et af de udbredte SQL-databasestyringssystemer er MYSQL. Dens arkitektur kan ses nedenfor i den givne figur:

Ustrukturerede data

Ustrukturerede data er mønstermindre og formater mindre data, såsom data brugt i ikke-relationelle databaser. MongoDB er en berømt ikke-relationel database. SQL-forespørgsler virker ikke på ikke-relationelle databaser, så disse databaser kaldes også NoSQL-databaser.

Som allerede nævnt er MongoDB et ikke-struktureret databasestyringssystem, og dets arkitektur kan ses nedenfor i den givne figur:

Vi har gennemgået de to grundlæggende datatyper, der bruges i databaser, og vi vil nu gå til de faktiske datatyper, der understøttes af Amazon Redshift. Disse datatyper er:

  • Numeriske data
  • Karakterdata
  • Dato-tidsdata
  • Booleske data
  • HLLSKETCH data
  • SUPER data
  • UDSKIFTNING Data

Lad os diskutere disse datatyper:

Numeriske data

Denne datatype er selvforklarende. Det understøtter data, der er i form af heltal, decimaler, flydende komma og andre numeriske datatyper.

Karakteristikaene for heltalsdatatypen kan ses i figuren nedenfor:

Decimal datatype gemmer data baseret på præcision fra brugeren. Dens egenskaber er som følger:

Karakterdata

CHAR og VARCHAR datatyper falder ind under kategorien tegnbaserede datatyper. NCHAR og NVARCHAR er også tegntypedatatyper. I modsætning til CHAR og VARCHAR gemmer disse to datatyper Unicode-tegn med fast længde. Lad os se på egenskaberne for disse datatyper, såsom:

  • CHAR, CHARACTER, NCHAR har en rækkevidde på 4KB.
  • VARCHAR, NVARCHAR har en rækkevidde på 64KB.
  • BPCHAR har en rækkevidde på 256 bytes.
  • TEXT har en rækkevidde på 260 bytes.

Dato-tidsdata

Dato-tid-datatyper er DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ. De funktionelle muligheder for disse datatyper er som følger:

  • DATE gemmer blot kalenderdatoer.
  • TIME gemmer tid uden reference til nogen tidszone. Det er som standard UTC.
  • TIMETZ gemmer tiden i forhold til tidszonen. Det er UTC i både brugertabellerne og systemtabellerne som standard.
  • TIMESTAMP inkluderer ikke kun tid, men også datoer. Det er som standard UTC i både brugertabellerne og systemtabellerne.
  • TIMESTAMPTZ inkluderer ikke kun tid, men også datoer. Det er som standard UTC kun i brugertabeller.

Booleske data

Boolsk datatype er en binær datatype, hvilket betyder, at der kun er to værdier. Karakteristiktabellen for boolsk datatype er angivet nedenfor i figuren:

HLLSKETCH data

Denne datatype bruges til at gemme skitser. Rødforskydning kan repræsentere skitserne i enten sparsom eller tæt form. Skitser starter som sparsomme og bliver gradvist tætte, når et tæt format giver mere effektivitet ved at følge linket.

SUPER data

Denne datatype omhandler ustrukturerede data, der kan være i form af arrays, indlejrede strukturer eller JSON. Der er ingen model eller format for dataene. Brugere kan udforske flere oplysninger ved at navigere på linket.

UDSKIFTNING Data

Denne datatype gemmer også tegn. Længden er dog begrænset. Amazon Redshift tillader casting af VARBYTE-data til enhver heltals- eller tegntypedata. For at få mere information om denne datatype, følg nedenstående link.

Dette er alt, hvad der er til Amazon Redshift og de datatyper, den understøtter.

Konklusion

Amazon Redshift er en AWS-tjeneste, der i sin grundlæggende form tjener formålet med et datavarehus, men er en meget kraftfuld og funktionel løsning til analyser og forudsigelse. Denne artikel har diskuteret Redshift og de datatyper, den understøtter. Disse datatyper blev kort forklaret sammen med deres karakteristika.