Ce este un corpus text?

Un corpus de text este o colecție de texte, vorbite sau scrise, care stă la baza cercetării lingvisticii corpusului. Stocarea acestor bănci mari de texte permite cercetătorilor să analizeze diverse aspecte ale oricărei limbi. Un corpus de text este o modalitate eficientă de a efectua cercetări, deoarece odată ce materialul este adunat, poate fi folosit pentru a investiga o varietate de probleme legate de limbaj, inclusiv morfologia, sintaxa, vocabularul și pragmatica. Spre deosebire de metodele mai vechi de desfășurare a cercetării lingvistice, un corpus de text permite cercetătorilor să privească limba în funcție de modul în care este utilizată de fapt în context, mai degrabă decât de modul în care ar putea fi utilizată ipotetic. Lingviștii au de obicei acces la eșantioane de date mult mai mari decât atunci când trebuiau să se limiteze la datele pe care le puteau colecta ei înșiși într-o perioadă limitată de timp cu resurse financiare limitate.

Corpurile sunt de obicei stocate într-un computer, astfel încât programele software pot fi create pentru a facilita cercetarea. O modalitate obișnuită de a folosi un corpus de text este să numărați numărul total de cuvinte din texte, apoi să numărați și să clasați de câte ori au apărut anumite cuvinte. Raportul care este creat între numărul total de cuvinte și anumite cuvinte este cunoscut sub numele de Legea lui Zipf. Acest raport ajută la explicarea frecvenței cuvintelor într-o limbă. Înțelegerea Legii lui Zipf îi ajută pe programatorii de calculatoare să proiecteze software de calculator care să îndeplinească cerințele unui anumit limbaj. Ei pot număra și prezice cât de des vor fi folosite anumite cuvinte și expresii ca intrare.

O altă modalitate de a utiliza un corpus de text este să etichetezi elemente specifice din el pe care cercetătorul dorește să le studieze. Un exemplu despre cum ar fi folosit acest lucru este să numărați de câte ori apare vocea pasivă în diferite genuri de text. Etichetarea a fost, de asemenea, utilă în crearea de programe de calculator care ajută oamenii în viața lor de zi cu zi. Etichetarea parțială a vorbirii a fost esențială pentru dezvoltarea software-ului de recunoaștere a vocii. În engleză, de exemplu, același cuvânt poate avea mai multe părți de vorbire. Cuvintele multisilabe sunt adesea accentuate diferit pentru a semnala ce parte a vorbirii este folosită. Substantivul „obiect” poartă accentul pe prima silabă, dar verbul „obiect” este accentuat pe a doua silabă. Etichetarea formei substantive a „obiect” ajută programul de calculator să-l citească corect cu voce tare și să-l recunoască atunci când „obiect” este rostit de un om.

Corpurile de text sunt utile atât pentru lingvistica umană, cât și pentru lingvistica computațională. Acestea permit efectuarea unor cercetări care îi ajută pe oameni să înțeleagă mai bine limbajul pe care oamenii îl folosesc, ceea ce, la rândul său, ajută la dezvoltarea limbajului pe care îl folosesc computerele. S-au făcut salturi mari în tehnologia de recunoaștere a vocii, permițând consumatorilor să controleze verbal computerele din birourile, casele și vehiculele lor. Progresele continue vor permite oamenilor să comunice cu computerele la fel de natural ca și între ei.