Big Data sunt măsurători ale datelor care au crescut atât de mari încât bazele de date normale nu sunt în măsură să conțină și să lucreze cu cantitatea masivă de informații. Datele vin în trei dimensiuni: mic, mediu și mare; nici una dintre aceste măsurători nu este strictă; în schimb, fiecare depinde mai mult de ușurința în utilizare și de ce tip de mașină poate gestiona informațiile. Pentru big data sunt necesare mașini speciale, mult mai mari și complexe decât cele folosite pentru bazele de date obișnuite. Aceste tipuri de date se găsesc de obicei în agențiile guvernamentale și științifice, dar unele site-uri web foarte mari conțin și această cantitate mare de informații.
Datele vin în trei dimensiuni standard, dar nu stricte. Datele mici pot fi încadrate pe un singur computer sau pe o singură mașină, cum ar fi un laptop. Datele medii pot să se potrivească pe o matrice de discuri și sunt cel mai bine gestionate de o bază de date. Bazele de date, oricât de mari sunt, sunt incapabile să lucreze cu date mari, iar în schimb se folosesc mult sisteme speciale. Deși nu există un ghid strict pentru ceea ce sunt datele mari, de obicei începe în jurul nivelului de teraocteți (TB) și urcă până la nivelul de petaocteți (PB).
Încercarea de a lucra cu date mari pe o bază de date care nu este specializată pentru această cantitate de date va cauza câteva probleme substanțiale. Baza de date nu este capabilă să gestioneze cantitatea de informații, așa că unele date trebuie șterse. Este ca și cum ai încerca să potriviți 100 de gigaocteți (GB) pe un computer cu doar 50 GB de spațiu pe hard disk; nu se poate face. Datele rămase vor fi greu de controlat și gestionat, deoarece orice funcție ar dura mult timp pentru a fi finalizată și baza de date trebuie să fie închisă pentru noi trimiteri.
Deși este posibil să continuați să cumpărați mașini și să adăugați noi date în bazele de date, acest lucru creează o problemă grea. Acest lucru se datorează faptului că software-ul pentru baze de date este conceput pentru a funcționa numai cu date medii. Seturile de date mai mari duc la erori și probleme administrative, deoarece software-ul pur și simplu nu poate muta sau lucra cu date mari fără a întâmpina probleme.
Big Data nu sunt întâlnite de majoritatea organizațiilor sau site-urilor web. Agențiile militare și de apărare folosesc această cantitate de informații pentru a crea modele și pentru a stoca rezultatele testelor, iar multe agenții științifice mari au nevoie de aceste mașini specializate din motive similare. Unele site-uri web foarte mari au nevoie de mașini mari de date, dar site-urile web nu sunt la fel de comune ca agențiile de pe această piață. Aceste organizații trebuie să-și păstreze toate datele, deoarece ajută la o mai bună analiză a datelor viitoare și să facă predicții.