Czym są duże zbiory danych?

Big data to pomiary danych, które urosły tak duże, że normalne bazy danych nie są w stanie pomieścić ogromnej ilości informacji i pracować z nimi. Dane są dostępne w trzech rozmiarach: małym, średnim i dużym; żaden z tych pomiarów nie jest ścisły; zamiast tego każda z nich zależy bardziej od łatwości użytkowania i rodzaju maszyny, która może obsłużyć informacje. Do big data potrzebne są specjalne maszyny, znacznie większe i bardziej złożone niż te używane do zwykłych baz danych. Tego typu dane są zwykle znajdowane w agencjach rządowych i naukowych, ale niektóre bardzo duże witryny internetowe również zawierają tak dużą ilość informacji.

Dane są dostępne w trzech standardowych, ale nie ścisłych rozmiarach. Niewielkie dane są w stanie zmieścić się na jednym komputerze lub maszynie, takiej jak laptop. Średnie dane są w stanie zmieścić się na macierzy dyskowej i najlepiej nimi zarządza baza danych. Bazy danych, bez względu na to, jak duże, nie są w stanie pracować z dużymi danymi, a zamiast tego często używa się specjalnych systemów. Chociaż nie ma ścisłych wytycznych dotyczących tego, czym są big data, zwykle zaczyna się od poziomu terabajtów (TB) i przechodzi do poziomu petabajtów (PB).

Próba pracy z dużymi zbiorami danych na bazie danych, która nie jest wyspecjalizowana do obsługi takiej ilości danych, spowoduje kilka poważnych problemów. Baza danych nie jest w stanie obsłużyć ilości informacji, więc niektóre dane muszą zostać usunięte. To tak, jakby próbować zmieścić 100 gigabajtów (GB) na komputerze z tylko 50 GB miejsca na dysku twardym; nie da się tego zrobić. Pozostawione dane będą trudne do kontrolowania i zarządzania, ponieważ wykonanie każdej funkcji zajmie dużo czasu, a baza danych musi zostać zamknięta dla nowych zgłoszeń.

Chociaż możliwe jest kupowanie maszyn i dodawanie nowych danych do baz danych, stwarza to niewygodny problem. Dzieje się tak, ponieważ oprogramowanie bazodanowe jest stworzone do pracy tylko na średnich danych. Większe zbiory danych prowadzą do błędów i problemów administracyjnych, ponieważ oprogramowanie po prostu nie może przenieść lub pracować z dużymi danymi bez napotkania problemów.

Większość organizacji lub stron internetowych nie napotyka dużych zbiorów danych. Agencje obronne i wojskowe wykorzystują tę ilość informacji do tworzenia modeli i przechowywania wyników testów, a wiele dużych agencji naukowych potrzebuje tych wyspecjalizowanych maszyn z podobnych powodów. Niektóre bardzo duże strony internetowe wymagają dużych maszyn danych, ale strony internetowe nie są tak popularne jak agencje na tym rynku. Organizacje te muszą przechowywać wszystkie swoje dane, ponieważ pomaga to lepiej analizować przyszłe dane i dokonywać prognoz.