Co to jest optymalizacja wydajności?

Optymalizacja pojemności składa się z różnych, a jednak często uzupełniających się metod zarówno przechowywania danych, jak i zmniejszania zapotrzebowania na pamięć podczas tworzenia kopii zapasowych. Często firmy i pojedyncze przedsiębiorstwa wykonują wiele kopii zapasowych pracy, a konieczność przechowywania, indeksowania i pobierania danych wymaga optymalizacji w celu zmniejszenia ilości sprzętu i związanych z tym kosztów ogólnych potrzebnych do obsługi wszystkich tych danych. Podczas tworzenia kopii zapasowych często występują nadmiary i tylko niewielkie zmiany między kopiami zapasowymi. W świetle nadmiarowości strategie optymalizacji pojemności opracowują rozwiązania, które zmniejszają koszty pamięci masowej i rozmiar kopii zapasowych nawet o 95 procent w stosunku do oryginałów. Optymalizacja pojemności jest czasami nazywana optymalizacją przepustowości, gdy jest używana w aplikacjach sieci rozległej (WAN), aby umożliwić większą przepustowość podczas przesyłania i odbierania danych w sieci.

Kompresja danych zazwyczaj wykorzystuje techniki kodowania w celu zmniejszenia rozmiaru przechowywanych lub przesyłanych danych. W zależności od tego, czy niektóre dane zostaną odrzucone w procesie, można je scharakteryzować jako stratne — tracące dane — lub bezstratne. Skanowanie danych pod kątem nadmiarowości lub powtórzeń i zastępowanie ich tokenami z odsyłaczami i indeksami pozwala na znaczne zmniejszenie ilości potrzebnej przestrzeni dyskowej. Książki kodów tłumienia danych prowadzą akceleratory w komunikacji do synchronizacji i używania pamięci lub dysku twardego do zapisywania historii kompresji w repozytorium pamięci masowej, dzięki czemu proxy protokołu kontroli transmisji (TCP) może być używane jako bufor pakietów lub sesji, dzięki czemu prędkości transmisji nie są zredukowany. Inna metoda kompresji danych zmniejsza rozmiar danych w czasie rzeczywistym w momencie ich pierwszego backupu, a tym samym poprzez dalszą optymalizację, co skutkuje większymi oszczędnościami zarówno w przestrzeni, jak i czasie.

Korzystanie z tradycyjnych sposobów kompresji może zmniejszyć rozmiar przechowywanych danych w stosunku 2:1; zastosowanie optymalizacji wydajności może zwiększyć tę redukcję nawet do 20:1. Poszukiwanie nadmiarowości w sekwencjach bajtów w oknach porównawczych i używanie kryptograficznych funkcji skrótu dla unikalnych sekwencji w algorytmach deduplikacji pozwala na segmentację strumieni danych. Te segmenty strumienia są następnie przypisywane do unikalnych identyfikatorów i indeksowane w celu pobrania. Dzięki temu tylko nowe zestawy danych są przechowywane przed dalszą kompresją przy użyciu algorytmów standardów kompresji. Niektóre metody deduplikacji są oparte na sprzęcie, a połączenie ich z tradycyjnymi algorytmami kompresji oprogramowania pozwala na uzyskanie znacznych oszczędności miejsca i czasu.

Wiele podejść koncentruje się na zmniejszeniu kosztów i miejsca w pamięci masowej w celu zmniejszenia kosztów związanych z infrastrukturą pamięci masowej, a podobne kwestie pojawiają się w scenariuszach sieci WAN. Warstwa znana jako warstwa transportowa musi istnieć między aplikacjami a leżącymi u ich podstaw strukturami sieciowymi podczas transmisji, umożliwiając wydajne i szybkie wysyłanie i odbieranie danych, jednak warstwa transportowa jest nadal tą utworzoną w 1981 r., kiedy po raz pierwszy utworzono protokół TCP i działał z prędkością 300 bodów wskaźnik. Dlatego akceleratory wykorzystują proxy TCP, zmniejszając straty podczas transmisji i potwierdzając zwiększenie rozmiaru pakietów przy użyciu zaawansowanych metod kompresji danych, aby dostarczyć więcej danych na segment czasu. Aby pokonać przeszkody podczas transmisji, techniki te współpracują spójnie, aby poprawić wydajność aplikacji i zmniejszyć zużycie przepustowości.