Co to jest słownictwo kontrolowane?

Słownictwo kontrolowane to pojęcie w informatyce i programowaniu komputerowym, które polega na używaniu tylko wcześniej uzgodnionych lub zatwierdzonych terminów podczas konstruowania relacyjnych baz danych, przeszukiwalnych metadanych lub innych systemów, w których słowa czytelne dla człowieka są używane do oznaczania informacji do późniejszego wyszukiwania. Metodologia używania kontrolowanego słownictwa do klasyfikowania informacji stoi w sprzeczności z koncepcją słownictwa języka naturalnego, w której nie ma uzgodnionych terminów, a wszystkie używane słowa są zamiast tego połączone relacjami ważonymi. Oprócz słów najwyższego poziomu, które są używane w słowniku kontrolowanym, można używać słów pomocniczych, aby synonimy lub inne terminy, które są silnie powiązane z terminem najwyższego poziomu, mogły wywołać użycie słowa najwyższego poziomu. Główne różnice mierzone między systemami języka naturalnego a systemami słownictwa kontrolowanego to trafność wyników zapytania przy użyciu słów, ilość zwracanych informacji oraz ogólna użyteczność systemu.

Istnieje wiele przypadków, w których zbiór słów lub terminów jest używany do zwiększania dostępności dla użytkowników arbitralnych, stale zmieniających się lub zdezorganizowanych informacji. Terminy wyszukiwania w wyszukiwarce internetowej, firmowej bazie danych, a nawet cyfrowej bibliotece badawczej to przykłady zastosowań, dzięki którym informacje można kategoryzować za pomocą terminów metadanych, w przeciwieństwie do ścisłej struktury hierarchicznej. Słowa używane do opisu obiektu w takich sytuacjach tworzą rodzaj przeszukiwalnego indeksu większej puli informacji.

Jeden z przykładów użycia słownictwa kontrolowanego można zaobserwować przy rozważaniu zbioru dla firmy. Pliki muszą być skategoryzowane w taki sposób, aby można je było łatwo i przewidywalnie odzyskać. Jeśli jeden plik dotyczy samochodów, można go umieścić w kategorii „samochody”. Jeśli inna osoba ma również plik dotyczący samochodów, bez kontrolowanego słownictwa, plik może zostać umieszczony pod nagłówkiem „samochody”, co utrudnia znalezienie tych dwóch plików za pomocą jednego wyszukiwania. Gdy kategorie są kontrolowane, wszystkie pliki dotyczące samochodów zostaną umieszczone pod jednym uzgodnionym nagłówkiem.

Zaletą używania kontrolowanego słownictwa jest to, że informacje są ściśle opisane w przewidywalny sposób. Oznacza to, że każdy, kto zna słownictwo, będzie mógł skutecznie i dokładnie wyszukiwać informacje. Jednak komplikacja ze słownictwem polega na tym, że wyszukiwane terminy są trudniejsze, jeśli nie niemożliwe, do automatycznego wygenerowania i zwykle wymagają interwencji człowieka, co sprawia, że ​​przekształcenie istniejących baz danych w celu korzystania ze słownika kontrolowanego jest dużym zadaniem. Jeśli słownictwo nie jest wystarczająco duże, to istnieje również możliwość, że pojedyncze zapytanie przyniesie tak dużą ilość informacji, że sortowanie bez użycia innej metody zapytania staje się niepraktyczne.