Deduplicarea datelor este o tehnică de comprimare a datelor în care datele duplicate sunt șterse, menținând o copie a fiecărei unități de informații pe un sistem, mai degrabă decât permițând multiplilor să prospere. Copiile păstrate au referințe care permit sistemului să le recupereze. Această tehnică reduce nevoia de spațiu de stocare și poate menține sistemele să funcționeze mai rapid, în plus față de limitarea cheltuielilor asociate cu stocarea datelor. Poate funcționa în mai multe moduri și este utilizat pe multe tipuri de sisteme informatice.
În deduplicarea datelor la nivel de fișier, sistemul caută orice fișiere duplicate și șterge elementele suplimentare. Deduplicarea la nivel de bloc analizează blocurile de date din fișiere pentru a identifica datele străine. Oamenii pot ajunge cu date dublate dintr-o mare varietate de motive, iar utilizarea deduplicarii datelor poate eficientiza un sistem, făcându-l mai ușor de utilizat. Sistemul poate analiza periodic datele pentru a verifica dacă există duplicate, pentru a elimina extra-urile și pentru a genera referințe pentru fișierele lăsate în urmă.
Astfel de sisteme sunt uneori denumite sisteme de compresie inteligente sau sisteme de stocare cu o singură instanță. Ambii termeni fac referire la ideea că sistemul funcționează inteligent pentru a stoca și arhiva date pentru a reduce sarcina sistemului. Deduplicarea datelor poate fi deosebit de valoroasă în cazul sistemelor mari în care sunt stocate date dintr-un număr de surse, iar costurile de stocare sunt în continuă creștere, deoarece sistemul trebuie extins în timp.
Aceste sisteme sunt concepute pentru a face parte dintr-un sistem mai mare de comprimare și gestionare a datelor. Deduplicarea datelor nu poate proteja sistemele de viruși și defecțiuni și este important să folosiți o protecție antivirus adecvată pentru a menține un sistem în siguranță și pentru a limita contaminarea virală a fișierelor, în timp ce se face backup într-o locație separată pentru a rezolva preocupările legate de pierderea de date din cauza întreruperilor, a deteriorării echipamente și așa mai departe. Comprimarea datelor înainte de a face backup va economisi timp și bani.
Sistemele care utilizează deduplicarea datelor în stocarea lor pot rula mai rapid și mai eficient. Acestea vor avea în continuare nevoie de extindere periodică pentru a găzdui date noi și pentru a răspunde preocupărilor legate de securitate, dar ar trebui să fie mai puțin predispuse să se umple rapid cu date duplicate. Aceasta este o preocupare deosebit de comună pe serverele de e-mail, unde serverul poate stoca cantități mari de date pentru utilizatori și bucăți semnificative din acestea ar putea consta în duplicate, cum ar fi aceleași atașamente repetate de nenumărate ori; de exemplu, mulți oameni care trimit e-mailuri de la locul de muncă au atașat subsoluri cu declinări de răspundere pentru e-mail și sigle ale companiei, iar acestea pot consuma rapid spațiu pe server.