Ce este arhitectura depozitului de date?

Arhitectura depozitului de date este un design care încapsulează toate fațetele depozitării de date pentru un mediu de întreprindere. Depozitarea datelor este crearea unui domeniu central pentru a stoca date complexe și descentralizate ale întreprinderii într-o unitate logică care permite extragerea datelor, inteligența de afaceri și accesul general la toate datele relevante din cadrul unei organizații. Arhitectura depozitului de date include toate cerințele de raportare, gestionarea datelor, cerințele de securitate, cerințele de lățime de bandă și cerințele de stocare.

Când creați o arhitectură de depozit de date, este important să împărțiți arhitectura în domenii specifice care sunt unite într-un design final holistic. Acest design ar trebui să fie considerat modelul pentru arhitectura de date a întreprinderii. În special, mai multe domenii principale ar trebui dezvoltate atunci când se ia în considerare arhitectura depozitului de date. Aceste zone sunt accesul la sistemul sursă, procesul de zonă de pregătire, procesul de îmbogățire a datelor, arhitectura datelor, procesul de business intelligence și cerințele de stocare.

Depozitarea datelor necesită ca datele sursă să fie transferate dintr-o bază de date tranzacțională sau de înregistrare în depozitul de date. Acest proces este simplificat în termenul Extract Transform and Load (ETL), care încapsulează practic zonele de acces la sistemul sursă, îmbogățirea datelor și arhitectura datelor. Din motive de claritate, este mai bine să proiectați aceste zone arhitecturale în detaliu, care subliniază modul în care va fi realizat procesul ETL. Deși unele date sunt necesare de la sistemele sursă, toate datele nu sunt de dorit, deoarece ar suprasolicita depozitul întreprinderii. Principalele domenii de îngrijorare atunci când se abordează nivelul sistemului sursă sunt metodologiile de acces la date, datele necesare din sistemul sursă și cerințele de reîmprospătare.

Următorul strat arhitectural de depozitare de date care trebuie luat în considerare este procesul zonei de pregătire. Deoarece majoritatea datelor din sistemele sursă vor necesita validare și curățare a datelor, este important să se creeze o zonă de aterizare pentru ca datele sursă să rămână înainte de încărcare în stratul de reguli de afaceri al depozitului de date. Zona de pregătire menține fluxuri de date brute de la sistemele sursă care sunt de obicei marcate în timp pentru a asigura actualitatea datelor.

Procesul de îmbogățire a datelor sau a regulilor de afaceri este locul în care datele sunt curățate pentru a atinge rezultatul dorit al depozitului de date. Un bun exemplu al acestei abordări de curățare este utilizarea instrumentelor de curățare a adreselor; în cazul în care sistemul sursă are date incorecte, procesul de îmbogățire a datelor va rula adresa din setul de date brute într-un sistem de reguli de afaceri care ar corecta adresele invalide. Acesta este, de asemenea, momentul în care datele inexacte sunt șterse sau modificate pentru a asigura integralitatea în depozitul de date.
Următorul strat de luat în considerare este stratul arhitecturii de date. În această zonă este finalizată designul sau schema adevărată a depozitului de date al întreprinderii. Depozitarea datelor nu este o combinație a tuturor seturilor de date dintr-o întreprindere, ci este o bază de date nou definită, construită pentru a permite o privire de ansamblu asupra tuturor entităților de afaceri din cadrul întreprinderii.
Acest lucru necesită ca arhitectura de date să răspundă la întrebările care vor fi puse de business în zona business intelligence și data mining. Prin crearea arhitecturii de date în acest mod, seturile de date brute vor fi transformate în tabele de fapte care vor permite utilizatorilor să realizeze raportări ad-hoc pe întreaga vizualizare a întreprinderii, mai degrabă decât pe o anumită bază de date. Aceasta este, de asemenea, zona care va păstra metadatele despre datele din sistemul brut, care ar putea include numele sistemului sursă sau cheile primare.
Următorul domeniu de luat în considerare este cerințele de business intelligence și raportare. Acest strat poate fi considerat ca o cerință orientată către utilizator pentru depozitarea datelor. De obicei, această zonă conține rapoarte predefinite, capacitate de raportare ad-hoc și tablouri de bord sau alerte ale întreprinderii. Straturile de business intelligence primesc în mod normal cea mai mare atenție, deoarece este singura componentă orientată spre exterior din cadrul depozitului de date.
Stratul final de luat în considerare este cerințele generale de stocare a datelor și întreținere. Pe măsură ce un depozit de date continuă să crească și să se extindă, stocarea datelor de bază de utilizatori trebuie gestionată și menținută cu strictețe. În plus, în timp ce se creează arhitectura depozitului de date, proiectarea ar trebui să facă estimări realiste cu privire la ceea ce va fi necesar dintr-o capacitate de stocare a datelor, precum și dintr-o bandă cu capacitate de acces la date. Aceste cerințe vor fi critice pe măsură ce depozitul de date va fi utilizat pe scară largă în întreaga întreprindere.