Co to jest architektura hurtowni danych?

Architektura hurtowni danych to projekt, który obejmuje wszystkie aspekty hurtowni danych w środowisku korporacyjnym. Magazynowanie danych to tworzenie centralnej domeny do przechowywania złożonych, zdecentralizowanych danych przedsiębiorstwa w logicznej jednostce, która umożliwia eksplorację danych, analizę biznesową i ogólny dostęp do wszystkich istotnych danych w organizacji. Architektura hurtowni danych obejmuje wszystkie wymagania dotyczące raportowania, zarządzania danymi, wymagania dotyczące bezpieczeństwa, wymagania dotyczące szerokości pasma i wymagania dotyczące przechowywania.

Tworząc architekturę hurtowni danych, ważne jest, aby podzielić architekturę na określone domeny, które zostaną połączone w całościowy projekt końcowy. Ten projekt należy uznać za wzór dla architektury danych przedsiębiorstwa. W szczególności, rozważając architekturę hurtowni danych, należy opracować kilka podstawowych obszarów. Te obszary to dostęp do systemu źródłowego, proces obszaru pomostowego, proces wzbogacania danych, architektura danych, proces analizy biznesowej i wymagania dotyczące pamięci masowej.

Hurtownia danych wymaga przeniesienia danych źródłowych z transakcyjnej lub ewidencyjnej bazy danych do hurtowni danych. Proces ten jest uproszczony do terminu Extract Transform and Load (ETL), który zasadniczo obejmuje obszary dostępu do systemu źródłowego, wzbogacania danych i architektury danych. Dla jasności lepiej jest szczegółowo zaprojektować te obszary architektoniczne, które określają, w jaki sposób zostanie osiągnięty proces ETL. Chociaż niektóre dane są wymagane z systemów źródłowych, wszystkie dane nie są pożądane, ponieważ przeciążyłyby hurtownię przedsiębiorstwa. Podstawowymi problemami związanymi z warstwą systemu źródłowego są metodologie dostępu do danych, dane wymagane z systemu źródłowego i wymagania dotyczące odświeżania.

Kolejną warstwą architektury hurtowni danych, którą należy wziąć pod uwagę, jest proces obszaru tymczasowego. Ponieważ większość danych z systemów źródłowych będzie wymagać walidacji i czyszczenia danych, ważne jest utworzenie strefy docelowej, w której dane źródłowe będą znajdować się przed załadowaniem do warstwy reguł biznesowych hurtowni danych. Obszar pomostowy przechowuje nieprzetworzone strumienie danych z systemów źródłowych, które zazwyczaj są oznaczone znacznikiem czasu, aby zapewnić aktualność danych.

Proces wzbogacania danych lub reguł biznesowych polega na czyszczeniu danych w celu osiągnięcia pożądanego wyniku hurtowni danych. Dobrym przykładem takiego podejścia do oczyszczania jest użycie narzędzi do oczyszczania adresów; w przypadku, gdy system źródłowy zawiera niepoprawne dane, proces wzbogacania danych uruchomi adres z surowego zestawu danych do systemu reguł biznesowych, który poprawiłby nieprawidłowe adresy. Jest to również czas, w którym niedokładne dane są usuwane lub modyfikowane w celu zapewnienia kompletności w hurtowni danych.
Kolejną warstwą do rozważenia jest warstwa architektury danych. W tym obszarze kończony jest prawdziwy projekt lub schemat hurtowni danych przedsiębiorstwa. Magazynowanie danych nie jest kombinacją wszystkich zestawów danych w przedsiębiorstwie, ale jest nowo zdefiniowaną bazą danych, zbudowaną w celu umożliwienia przeglądu wszystkich podmiotów biznesowych w przedsiębiorstwie.
Wymaga to od architektury danych odpowiedzi na pytania, które będą stawiane przez biznes w obszarze business intelligence i data mining. Tworząc architekturę danych w ten sposób, surowe zbiory danych zostaną przekształcone w tabele faktów, które pozwolą użytkownikom na wykonywanie raportów ad hoc na całym widoku przedsiębiorstwa, a nie na konkretnej bazie danych. Jest to również obszar, w którym będą przechowywane metadane dotyczące danych z systemu surowego, które mogą obejmować nazwę systemu źródłowego lub klucze podstawowe.
Kolejnym obszarem do rozważenia są wymagania dotyczące analizy biznesowej i raportowania. Ta warstwa może być traktowana jako wymóg dla użytkownika w hurtowni danych. Zazwyczaj ten obszar zawiera gotowe raporty, możliwość raportowania ad-hoc oraz korporacyjne tablice informacyjne lub alerty. Warstwy analizy biznesowej są zwykle najbardziej brane pod uwagę, ponieważ jest to jedyny komponent w hurtowni danych skierowany na zewnątrz.
Ostatnią warstwą do rozważenia są ogólne wymagania dotyczące przechowywania danych i konserwacji. Ponieważ hurtownia danych stale się rozwija i rozszerza, przechowywanie danych w bazie użytkowników musi być ściśle zarządzane i utrzymywane. Dodatkowo, tworząc architekturę hurtowni danych, projekt powinien realistycznie oszacować, co będzie wymagane od pojemności przechowywania danych oraz pasma z pojemnością dostępu do danych. Wymagania te będą miały kluczowe znaczenie, ponieważ hurtownia danych stanie się powszechnie stosowana w całym przedsiębiorstwie.