Curățarea datelor, uneori numită curățarea datelor, este procesul de detectare și eliminare sau corectare a oricărei informații dintr-o bază de date care are un fel de eroare. Această eroare se poate datora faptului că datele sunt greșite, incomplete, formatate incorect sau sunt o copie duplicată a unei alte intrări. Multe domenii de afaceri cu consum mare de date, cum ar fi banca, asigurări, comerț cu amănuntul, transport și telecomunicații, pot folosi aceste aplicații software sofisticate pentru a curăța informațiile unei baze de date.
Erorile care apar în bazele de date pot fi rezultatul unei erori umane în introducerea datelor, fuziunea a două baze de date, lipsa standardelor de codificare a datelor la nivel de companie sau de industrie sau din cauza sistemelor vechi care conțin date inexacte sau învechite. Înainte ca computerele să aibă capabilitățile de a sorta și curăța datele, cea mai mare parte a curățării se făcea manual. Nu numai că a fost consumator de timp și costisitor, dar a dus adesea la și mai multe erori umane.
Necesitatea curățării datelor este clarificată atunci când se analizează cât de ușor pot fi făcute erori. Într-o bază de date de nume și adrese, de exemplu, un nume ar putea fi Bobby Johnson din Needham, MA, în timp ce altul este Bob Johnson din Needham, MA. Această variație de nume este cel mai probabil o eroare și se referă la o singură persoană. Cu toate acestea, un computer ar trata informația ca și cum ar fi două persoane diferite. Software-ul specializat de curățare a datelor este capabil să distingă discrepanța și să o repare.
În timp ce aceste mici erori pot părea o problemă banală, atunci când îmbinăm date corupte sau eronate în mai multe baze de date, problema poate fi înmulțită cu milioane. Aceste așa-numite „date murdare” au fost o problemă atâta timp cât au existat computere, dar devine din ce în ce mai critică pe măsură ce afacerile devin mai complexe și depozitele de date îmbină date din mai multe surse. Nu are rost să avem o bază de date cuprinzătoare dacă acea bază de date este plină de erori și informații contestate.
Companiile care utilizează software specializat îl pot dezvolta fie intern, fie îl pot cumpăra de la o varietate de furnizori. Software-ul nu este ieftin și poate varia oriunde de la un preț de 20,000 USD la 300,000 USD de dolari SUA (USD). De multe ori necesită, de asemenea, o anumită personalizare, astfel încât software-ul să funcționeze la nevoile specifice ale companiei. Trece printr-un proces de utilizare a algoritmilor pentru a standardiza, corecta, potrivi și consolida datele și este capabil să lucreze cu un singur sau mai multe seturi de date.
Curățarea datelor este uneori omisă ca parte a implementării unui depozit de date, dar este unul dintre pașii cei mai critici pentru a avea un produs final bun și precis. Deoarece se vor face întotdeauna greșeli la introducerea datelor, va fi întotdeauna nevoie de acest proces.