Co to jest kanonizacja?

Słowo kanoniczny oznacza coś, co jest zgodne z przyjętym standardem. Kanonizacja — lub kanonizacja w brytyjskim angielskim — to proces, w którym coś zostaje doprowadzone do zgodności z przyjętym standardem. W dziedzinie komputerów termin kanonizacja jest używany w odniesieniu do spełniania standardów w kilku różnych obszarach. Często uważa się, że jest to problem, podczas gdy w rzeczywistości jest rozwiązaniem wielu problemów. Ponieważ jest to tak długie słowo, kanonizację skraca się za pomocą pierwszych i ostatnich liter oraz liczby liter pomiędzy: c14n.

Kanonizacja jest używana w IT (technologia informacyjna) w kilku ustawieniach. Odnosi się do adresów nadawców wiadomości e-mail, konstrukcji nazw plików, kodowania ciągów znaków w Unicode, używania XML (Extensible Markup Language) oraz konstrukcji URL (Uniform Resource Locator). W każdym przypadku problemem jest możliwość obsługi wielu formatów reprezentujących ten sam przedmiot, a kanonizacja jest drogą do spójności i standaryzacji.

Weźmy jako przykład XML. XML pozwala na zmiany składni. Oznacza to, że dwa dokumenty, które nie są identyczne, mogą mieć tę samą formę kanoniczną, a tym samym być funkcjonalnie równoważne. Kanoniczna specyfikacja XML została zaprojektowana w celu rozwiązania tego problemu poprzez ustanowienie metody, za pomocą której można ustalić tożsamość oddzielnych dokumentów. Metoda generowania postaci kanonicznej dla dowolnego dokumentu XML nazywana jest metodą kanonizacji XML.

W przypadku kanonizacji adresów URL chodzi o to, aby konsekwentnie odwoływać się do określonej strony internetowej za pomocą jednego adresu URL. Najprostszym przykładem są dwie wersje strony głównej, z których jedna ma trzy litery w, a druga nie:

http://www.Popeye and Cloudy.com

przeciwko
http://Popeye and Cloudy.com
Jest to problem dla SEO (Search Engine Optimization), ponieważ dzieli raporty dla ruchu, który w rzeczywistości trafia w to samo miejsce. W rezultacie witryna z wieloma adresami URL dla tych samych stron wydaje się działać gorzej niż w rzeczywistości.
Oprócz „w” są jeszcze inne problemy. Należą do nich końcowe ukośniki i różnice między wersjami adresów URL z dużymi i małymi literami. Matt Cutts z Google® zaleca rozwiązanie tego problemu za pomocą stałego (301) przekierowania wszystkich alternatywnych adresów URL na żądany adres URL, umożliwiając wyszukiwarkom ocenę, który jest kanonicznym adresem URL.