Un corpus de vorbire, cunoscut și sub numele de corpus vorbit, este o colecție de discursuri păstrate în format audio sau text. Aceste colecții sunt utile în dezvoltarea software-ului de vorbire și în efectuarea de studii lingvistice. Cele două varietăți de corpus de vorbire sunt vorbirea spontană și vorbirea citită.
Este important să definiți ce înseamnă cuvintele „vorbire” și „corpus”. Discursul cuprinde culegeri de gânduri și fapte, de obicei într-o formă vorbită. De asemenea, cineva poate vedea orice rostire vorbită ca vorbire. Un corpus, la rândul său, face referire la o colecție formală de diverse informații.
În general, utilizatorii creează un corpus de vorbire fie prin înregistrări audio, fie prin transcripții bazate pe text. Înregistrările pot fi realizate prin tehnologii de stocare a sunetului și stocate – adesea ca fișiere MP3 în baze de date electronice – pentru a crea un corpus. Un transcriptor, pe de altă parte, transformă vorbirea vorbită într-o formă scrisă, care este apoi compilată cu alte transcripții.
Orice tip de vorbire poate fi găsit într-un corpus de vorbire, dar astfel de baze de date sunt în general împărțite în două categorii. Primul, discursul spontan, conține discursuri neformalizate pe care o persoană le-ar putea ține, cum ar fi cele găsite în conversații sau în povestirile orale. Cu toate acestea, discursurile citite au o structură mai formalizată și pre-planificată. Exemplele pot include discursuri politice, emisiuni de știri și lecturi de cărți audio. Unele soiuri pot depinde de contextul specific, cum ar fi interviurile.
Un avantaj major al instrumentelor de corpus de vorbire este utilitatea lor practică în a ajuta la crearea de software bazat pe vorbire. De exemplu, multe computere și alte dispozitive electronice prezintă funcții de recunoaștere a vorbirii ca opțiune, cum ar fi citirea textului tastat, transformarea cuvintelor rostite în text sau identificarea unui vorbitor prin trăsături vocale unice. Extracțiile dintr-un corpus de vorbire ar putea ajuta la îmbunătățirea acestei tehnologii prin aplicarea unor seturi de statistici bazate pe matematică numite modele acustice fiecărui sunet individual. În plus, bazele de date pot ajuta la dezvoltarea benzilor audio pentru învățarea limbilor străine.
Aceste funcții se leagă cu o altă aplicație pentru un corpus de vorbire. Și anume, oamenii de știință pot lua aceste fișiere audio sau scrise păstrate și pot studia variațiile gramaticale subtile care cuprind limbajul. Prin urmare, un corpus de vorbire poate servi ca un instrument valoros pentru a învăța despre pronunție, ordinea cuvintelor și alte modele lingvistice. Cercetătorii pot compara în continuare asemănările și diferențele în diferite dialecte și limbi regionale dacă creează o colecție cu mai multe limbi sau un corpus multilingv. Evaluarea corpurilor care implică vorbire este o concentrare de cercetare specializată cunoscută sub numele de lingvistică corpus, iar implementarea sa computerizată se numește lingvistică computațională.
Multe baze de date de transcriere includ notații sau etichete care conțin informații despre componentele individuale dintr-o bucată de text. Acest proces se numește adnotare. În procesul de abstractizare, lingviştii vor documenta şi vor traduce diferiţi termeni într-un discurs. O astfel de intrare poate fi utilă dacă o persoană dorește să învețe despre civilizații necunoscute prin texte. Pasul final al studiului corpus implică analiza sau derivarea de comparații și idealuri teoretice dintr-o colecție de componente de vorbire.