Gęstość leksykalna odnosi się do stosunku słów leksykalnych i funkcjonalnych w danym tekście lub zbiorach tekstów. Jest to gałąź językoznawstwa komputerowego i analizy językoznawczej. Jest on powiązany ze słownictwem, znanymi słowami dowolnej osoby i może być używany do porównywania leksykonów mówionych i pisanych dowolnej osoby. Leksykon różni się od słownictwa całkowitego, ponieważ nie zawiera słów funkcjonalnych, takich jak zaimki i cząstki.
Gęstość wypowiedzi lub tekstu oblicza się, porównując liczbę słów leksykalnych z liczbą słów funkcjonalnych. Krótkie zdania i małe teksty można obliczyć za pomocą arytmetyki mentalnej lub prostego liczenia. Większe porównania, powiedzmy Charlesa Dickensa czy Williama Szekspira, są dokonywane przez wprowadzenie informacji do programu komputerowego. Program przesiewa tekst na wyrazy funkcjonalne i leksykalne.
Zrównoważona gęstość leksykalna wynosi około 50 procent. Oznacza to, że połowa każdego zdania składa się ze słów leksykalnych, a połowa ze słów funkcjonalnych. Tekst o małej gęstości będzie miał stosunek mniejszy niż 50:50, a tekst o dużej gęstości będzie miał więcej niż 50:50. Teksty akademickie i rządowe, wypełnione żargonem dokumenty mają tendencję do tworzenia największej gęstości.
Jedną z wad w obliczaniu gęstości leksykalnej jest to, że nie uwzględnia ona różnych form i przypadków słów składowych. Analiza statystyczna ma na celu jedynie zbadanie stosunku typów słów. Nie prowadzi do studium wiedzy leksykalnej danej osoby. Gdyby tak było, analiza gęstości leksykalnej rozróżniałaby formy takie jak „daj” i „daj”. Teoretycznie gęstość leksykalną można zastosować do tekstów w celu zbadania częstości występowania pewnych jednostek leksykalnych.
Napisanie leksykonu osoby może być wspomagane przez użycie słowników i tezaurusów. Takie narzędzia zapewniają alternatywne słowa i wyjaśniają znaczenia. Mówiąc, osoba musi polegać wyłącznie na swoim słownictwie umysłowym. Oznacza to, że gęstość leksykalna może być używana jako narzędzie do porównywania leksykonów mówionych i pisanych. Gęstość leksykalna języków mówionych jest zwykle mniejsza niż tekstu pisanego.
Językoznawstwo komputerowe to obszar modelowania statystycznego analizy językowej. Narodził się z zimnej wojny i pragnienia Ameryki, aby używać komputerów do tłumaczenia tekstów z rosyjskiego na angielski. Wymagało to użycia matematyki, statystyki, sztucznej inteligencji i programowania komputerowego. Największym problemem dla programistów było zrozumienie przez komputer złożonej pragmatyki gramatycznej i językowej. Dało to początek teorii Pokoju Chińskiego, według której komputery mogą dokonywać dosłownych tłumaczeń słów, ale ostatecznie nie mogą rozumieć języków.