Cuvântul canonic înseamnă ceva care se conformează unui standard acceptat. Canonicalizarea – sau canonizarea în engleza britanică – este procesul prin care ceva este adus în conformitate cu standardul acceptat. În domeniul computerelor, termenul de canonizare este folosit pentru a se referi la îndeplinirea standardelor în mai multe domenii diferite. Este adesea considerată problema, când este de fapt soluția la o varietate de probleme. Deoarece este un cuvânt atât de lung, canonizarea este prescurtată folosind prima și ultima literă și numărul de litere între ele: c14n.
Canonicalizarea este utilizată în IT (tehnologia informației) în mai multe setări. Se referă la adresele expeditorului de e-mail, la construcția numelor de fișiere, la codificarea șirurilor în Unicode, la utilizarea XML (EXtensible Markup Language) și la construcția URL (Uniform Resource Locator). În fiecare caz, problema este capacitatea de a avea mai multe formate reprezentând același articol, canonizarea fiind calea către consistență și standardizare.
Luați XML ca exemplu. XML permite modificări sintactice. Aceasta înseamnă că două documente care nu sunt identice ar putea avea aceeași formă canonică și, prin urmare, pot fi echivalente din punct de vedere funcțional. Specificația Canonical XML a fost concepută pentru a aborda acest lucru prin stabilirea unei metode prin care poate fi stabilită identitatea documentelor separate. Metoda de generare a formei canonice pentru orice document XML dat se numește metoda de canonizare XML.
Pentru canonizarea URL-ului, ideea este să faceți referire la o anumită pagină web în mod constant printr-o adresă URL. Cel mai simplu exemplu sunt două versiuni ale unei pagini de pornire, dintre care una are cele trei w, iar cealaltă nu:
http://www.Popeye and Cloudy.com
contra
http://Popeye and Cloudy.com
Aceasta este o problemă pentru SEO (Search Engine Optimization), deoarece împarte rapoartele pentru trafic, toate acestea mergând de fapt în același loc. Rezultatul este că site-ul cu mai multe adrese URL pentru aceleași pagini pare să aibă performanțe mai slabe decât este în realitate.
Există și alte probleme în afară de w. Acestea includ bare oblice finale și diferențe între versiunile URL cu litere mari și mici. Matt Cutts de la Google® recomandă soluționarea acestei probleme utilizând o redirecționare permanentă (301) a tuturor adreselor URL alternative către adresa URL dorită, permițând motoarelor de căutare să judece care este adresa URL canonică.