Deduplikacja danych to technika kompresji danych, w której zduplikowane dane są usuwane, zachowując jedną kopię każdej jednostki informacji w systemie, a nie pozwalając na rozwój wielokrotności. Zachowane kopie posiadają odniesienia umożliwiające systemowi ich odzyskanie. Ta technika zmniejsza zapotrzebowanie na przestrzeń dyskową i może przyspieszyć działanie systemów, a także ogranicza wydatki związane z przechowywaniem danych. Może działać na wiele sposobów i jest używany w wielu typach systemów komputerowych.
W deduplikacji danych na poziomie plików system wyszukuje zduplikowane pliki i usuwa dodatki. Deduplikacja na poziomie bloków analizuje bloki danych w plikach w celu identyfikacji obcych danych. Ludzie mogą z różnych powodów otrzymać podwojenie danych, a deduplikacja danych może usprawnić system, ułatwiając korzystanie z niego. System może okresowo przeglądać dane w celu sprawdzenia duplikatów, eliminowania dodatków i generowania referencji do pozostawionych plików.
Takie systemy są czasami określane jako inteligentne systemy kompresji lub jednoinstancyjne systemy przechowywania. Oba terminy odnoszą się do idei, że system działa inteligentnie, przechowując i archiwizując dane w celu zmniejszenia obciążenia systemu. Deduplikacja danych może być szczególnie cenna w przypadku dużych systemów, w których przechowywane są dane z wielu źródeł, a koszty przechowywania stale rosną, ponieważ system wymaga z czasem rozbudowy.
Systemy te zostały zaprojektowane jako część większego systemu do kompresji danych i zarządzania nimi. Deduplikacja danych nie może ochronić systemów przed wirusami i błędami, dlatego ważne jest, aby stosować odpowiednią ochronę antywirusową, aby zapewnić bezpieczeństwo systemu i ograniczyć wirusowe skażenie plików, a jednocześnie tworzyć kopie zapasowe w innej lokalizacji, aby rozwiązać obawy związane z utratą danych z powodu awarii lub uszkodzenia sprzęt i tak dalej. Skompresowanie danych przed utworzeniem kopii zapasowej pozwoli zaoszczędzić czas i pieniądze.
Systemy wykorzystujące deduplikację danych w swoich pamięciach mogą działać szybciej i wydajniej. Nadal będą wymagały okresowej rozbudowy, aby pomieścić nowe dane i rozwiązać obawy dotyczące bezpieczeństwa, ale powinny być mniej podatne na szybkie zapełnianie się zduplikowanymi danymi. Jest to szczególnie powszechny problem na serwerach poczty e-mail, gdzie serwer może przechowywać duże ilości danych dla użytkowników, a znaczne ich fragmenty mogą składać się z duplikatów, takich jak te same załączniki powtarzane w kółko; na przykład wiele osób wysyłających e-maile z pracy ma dołączone stopki z zastrzeżeniami e-mail i logo firmy, które mogą szybko zająć miejsce na serwerze.