Co to jest klastrowanie korelacji?

Grupowanie korelacji jest wykonywane w bazach danych i innych dużych źródłach danych w celu zgrupowania podobnych zestawów danych, jednocześnie ostrzegając użytkownika o odmiennych zestawach danych. Na niektórych wykresach można to zrobić doskonale, podczas gdy na innych wystąpią błędy, ponieważ trudno będzie odróżnić podobne od niepodobnych danych. W przypadku tych ostatnich klastrowanie korelacji pomoże automatycznie zredukować błąd. Jest to często używane do eksploracji danych lub wyszukiwania nieporęcznych danych pod kątem podobieństw. Odmienne dane są zwykle usuwane lub umieszczane w oddzielnym klastrze.

Gdy używana jest funkcja klastrowania korelacji, wyszukuje ona dane na podstawie instrukcji użytkownika. Użytkownik poinformuje program, czego szukać, a po znalezieniu, gdzie umieścić dane. Jest to zwykle stosowane w przypadku bardzo dużych źródeł danych, gdy ręczne przeszukiwanie danych byłoby niemożliwe — lub trwałoby zbyt wiele godzin. Może istnieć albo idealne grupowanie, albo grupowanie niedoskonałe.

Idealne grupowanie to idealny scenariusz. Oznacza to, że istnieją tylko dwa rodzaje danych, z których jeden jest tym, czego szuka użytkownik, a drugi jest niepotrzebny. Wszystkie pozytywne lub potrzebne dane są umieszczane w jednym klastrze, podczas gdy inne dane są usuwane lub przenoszone. W tym scenariuszu nie ma zamieszania i wszystko działa idealnie.

Większość złożonych grafów nie pozwala na idealne grupowanie, a zamiast tego jest niedoskonała. Na przykład wykres ma trzy zmienne: X, Y i Z. X,Y jest podobne, X,Z jest podobne, ale Y,Z jest niepodobne. Trzy skupienia zmiennych są jednak tak podobne, że niemożliwe jest uzyskanie idealnego skupienia korelacji. Program będzie działał, aby zmaksymalizować liczbę dodatnich korelacji, ale nadal będzie to wymagało od użytkownika ręcznego wyszukiwania.

W eksploracji danych, zwłaszcza w przypadku dużych zbiorów danych, grupowanie korelacji służy do grupowania podobnych danych z podobnymi danymi. Na przykład, jeśli firma przeszukała dane dla dużej witryny internetowej lub bazy danych i chce wiedzieć tylko o konkretnym aspekcie, przeszukanie wszystkich danych dla tego aspektu zajęłoby wieczność. Dzięki zastosowaniu formuły grupowania dane zostaną odłożone do właściwej analizy.

Informacje niepodobne są rozpatrywane wyłącznie na podstawie instrukcji użytkownika. Użytkownik może zdecydować się na przesłanie niepodobnych danych do różnych klastrów, ponieważ informacje te mogą być przydatne w innych projektach. Jeśli dane są niepotrzebne i tylko marnują pamięć, wówczas niepodobne informacje są wyrzucane. W niedoskonałym klastrowaniu możliwe jest, że pewne niepodobne informacje nie zostaną wyrzucone, ponieważ są one tak podobne do danych, których szuka użytkownik.