Un model acustic este în esență o hartă a vocii în raport cu o serie de cuvinte tipărite. Această tehnologie este utilizată în programele de recunoaștere a vorbirii pentru a ajuta computerul să învețe să recunoască tiparele de vorbire ale unei persoane. Un model acustic este unul dintre cele două fișiere principale necesare pentru a rula un program de recunoaștere a vorbirii; celălalt este modelul de limbaj, care indică cuvintele și modelele de vorbire probabile care pot fi folosite de vorbitor. Aceste modele sunt create prin compararea detaliilor sonore ale unui fișier audio rostit cu textul cuvintelor rostite.
Software-ul de recunoaștere a vorbirii este un software conceput pentru a recunoaște și a transcrie sau a răspunde la cuvintele rostite de o persoană. Multe sisteme de operare sunt proiectate cu capabilități de bază de recunoaștere a vorbirii, pe care utilizatorul le poate activa și dezactiva. Capacitățile de recunoaștere a vorbirii pe sistemele de operare oferă de obicei utilizatorului posibilitatea de a controla computerul și de a introduce cuvinte pe ecran folosind vocea ei.
Pentru a accesa software-ul de recunoaștere a vorbirii, un utilizator are nevoie de un microfon pentru a-și duce vocea la computer, plus un program care procesează sunetul. În timp ce multe computere au microfoane încorporate, un microfon extern cu căști permite utilizatorului beneficiul unui sunet vocal mai clar și libertatea de a se deplasa prin cameră în timp ce vorbește. Printre mărcile de software autonome de recunoaștere a vorbirii se numără LumenVox®, Loquendo® și Dragon®.
Majoritatea programelor de recunoaștere a vorbirii au modele de programare acustică care permite programului să recunoască variațiile de pronunție. Ei folosesc modele în sunetul vocii vorbitorului pentru a identifica cuvintele în vorbire. Multe sunt proiectate cu software de configurare creat pentru a ajuta utilizatorul să creeze un model acustic conceput pentru a-și interpreta propria voce. Unele programe avansate de recunoaștere a vorbirii pot identifica și interpreta mai multe limbi, adesea cu o cantitate mică de informații sonore. Cu cât un program de recunoaștere a vorbirii este mai avansat, cu atât este mai probabil să interpreteze cu acuratețe cuvintele în funcție de contextul său, inclusiv locul în care este rostit un cuvânt într-o propoziție.
Domeniul de studiu care dezvoltă tehnologia de recunoaștere a vorbirii se numește lingvistică computațională. Lingvistica computațională implică studiu și proiectare care creează software programat pentru a înțelege vorbirea umană. Acest domeniu încorporează adesea informații din studiul psihologiei pentru a crea modele acustice care pot interpreta mai precis vorbirea.
Cuvântul „acustic” se referă în general la orice are legătură cu sunetul. Deși modelele acustice sunt cel mai des folosite în recunoașterea vorbirii, ele pot fi folosite și în muzică. Un model acustic al unei piese muzicale poate identifica proprietăți precum bătăile pe minut, cheile muzicale sau tonurile dominante ale muzicii. Aceste informații pot fi folosite de un program de calculator pentru a identifica o piesă muzicală sau pot fi folosite pentru a determina vag genul în care muzica este probabil clasificată. Modelele acustice sunt folosite și într-un domeniu de studiu numit psihoacustică, în care cercetătorii speră să învețe să structureze muzica care afectează în mod previzibil creierul.