Ipoteza distribuției propune ideea că cuvintele cu același înțeles sunt grupate în texte. Ideea examinează cuvintele pentru semnificația lor și distribuția lor în cadrul unui text. Aceasta este apoi comparată cu distribuțiile de cuvinte cu semnificații similare sau înrudite. Astfel de examinări determină că cuvintele apar împreună în contextul lor datorită semnificațiilor lor similare sau înrudite.
Ipoteza distribuției a fost sugerată pentru prima dată de lingvistul britanic JR Firth. El este cunoscut pentru cel mai faimos citat referitor la ideea „Veți cunoaște un cuvânt după compania pe care o păstrează”. Firth, care este și bine cunoscut pentru studiile sale despre prozodie, credea că niciun sistem nu ar explica vreodată cum funcționează o limbă. În schimb, el credea că vor fi necesare mai multe sisteme care se suprapun.
Lingvistul american Zellig Harris a construit pe lucrarea lui Firth. El a vrut să folosească matematica pentru a studia și analiza date lingvistice. Ideile sale despre contribuția matematicii la astfel de studii sunt importante, dar el este cunoscut și pentru că a acoperit o gamă largă de idei lingvistice în timpul vieții.
Studiile asupra ipotezei distribuției fac parte din examinarea lingvisticii. Metodele matematice și statistice, nu cele lingvistice, sunt folosite pentru a verifica cantități mari de date lingvistice. Aceasta înseamnă, prin urmare, că ipoteza distribuției face parte din lingvistica computațională și semantica statistică. Este, de asemenea, legat de ideile lingviștilor și filozofilor lingvistici despre dezvoltarea limbilor native la copii, proces cunoscut sub numele de achiziție a limbajului.
Semantica statistică folosește algoritmi matematici pentru a studia distribuția cuvintelor. Aceste rezultate sunt apoi filtrate după semnificație și studiate în continuare pentru a afla distribuția cuvintelor legate de sens. Există două metode principale de semantică statistică: distribuția pe grupuri de cuvinte și pe regiune de text.
Studierea distribuției cuvintelor prin grupuri de semnificații înrudite se numește Hyperspace Analog to Language (HAL). HAL examinează relațiile dintre cuvintele grupate într-un text. Acesta poate fi intra-propoziție sau intra-paragraf, dar rareori mai departe de atât. Distribuția semantică a cuvintelor este determinată de cât de des apar cuvintele unul lângă altul.
Studiile de text întreg folosesc Analiza Semantică Latentă (LSA). Aceasta este o metodă de procesare a limbajului natural. Cuvintele cu un sens apropiat vor apărea aproape unul de celălalt pe parcursul unui text. Astfel de texte sunt examinate pentru grupuri folosind o metodă matematică numită Singular Value Decompression (SVD).
Datele culese din studiile privind ipoteza distribuției sunt folosite pentru a studia blocurile de bază ale semanticii și relațiilor dintre cuvinte. Trecând dincolo de o abordare structuralistă, ipoteza poate fi aplicată inteligenței artificiale (AI). Acest lucru ar ajuta programele de calculator să înțeleagă mai bine relația și distribuția cuvintelor. De asemenea, are implicații asupra modului în care copiii procesează cuvintele și creează asocieri de cuvinte și propoziții.