Deduplikacja to proces służący do eliminacji zbędnych danych. Podczas tego procesu dysk twardy komputera jest skanowany w poszukiwaniu dużych sekwencji danych w oknach porównawczych. Podczas skanowania w poszukiwaniu zduplikowanych danych zwykle wybierane są sekwencje co najmniej ośmiu kilobajtów. Jeśli sekwencja zostanie znaleziona w innym miejscu w systemie pamięci masowej, zduplikowany plik jest przywoływany, a nie zapisywany ponownie.
Pomyślna deduplikacja może wyeliminować z komputera kilka kilobajtów danych, co daje oczywiste korzyści. Powielanie danych zajmuje niepotrzebne miejsce w systemie, a usunięcie zbędnych danych pozostawia użytkownikowi więcej miejsca na komputerze. Pozwoli to systemowi działać szybciej i wydajniej, ponieważ nie ugrzęźnie w dodatkowych danych. Ponadto poprawa przepustowości jest zawsze bardziej zauważalna, gdy komputer ma więcej wolnego miejsca.
Deduplikacja polega na odesłaniu dużej ilości danych do pierwszej lokalizacji i usunięciu dodatkowych kopii danych, które są jednak indeksowane na wypadek, gdyby były potrzebne. Często te same dokładne dane mogą być przechowywane nawet w 100 różnych miejscach na dysku twardym. Jeśli każdy zajmuje jeden megabajt miejsca, deduplikacja zmniejszy to miejsce na dysku twardym ze 100 megabajtów do zaledwie jednego. Proces ten polega na archiwizacji danych, a dodatkowa przestrzeń, którą uzyskujemy, jest bardzo korzystna dla dysku twardego komputera.
Dodatkowe korzyści płynące z deduplikacji obejmują zmniejszenie ilości potrzebnego miejsca na kopie zapasowe nawet o 90 procent, zmniejszenie kosztów, takich jak wymagania dotyczące zasilania, miejsca i chłodzenia, przywrócenie wyższego poziomu usług, eliminacja wielu różnych rodzajów błędów i odzyskiwanie danych w kilku różne punkty. Wadą deduplikacji jest to, że identyfikuje zduplikowane dane za pomocą kryptograficznych funkcji skrótu, które mogą być zawodne, a kolizja lub inny rodzaj błędu może spowodować utratę danych. Ponadto, jeśli osoba autoryzująca procedurę nie jest świadoma związanej z tym redukcji nadmiarowości, może to mieć negatywny wpływ na niezawodność komputera.
Deduplikacja danych polega na najpierw segmentacji każdego przetwarzanego fragmentu danych. Każdy segment jest identyfikowany i porównywany z danymi, które już znajdują się w systemie. Jeśli dane są unikatowe, są przechowywane na dysku. Jeśli jest to duplikat danych, zamiast tego tworzone jest odwołanie. Deduplikację można wdrożyć za pomocą oprogramowania o nazwie Data Domain, które współpracuje z systemami danych i pamięci masowej w celu filtrowania danych, odwoływania się, eliminowania lub przechowywania każdego bajtu, stosownie do potrzeb.