Localizarea cuvintelor cheie este o caracteristică cheie a programelor și instrumentelor software de recunoaștere a vorbirii. Software-ul de recunoaștere a vorbirii se bazează pe tehnologii complexe pentru a „înțelege” ceea ce spune cineva și apoi îl transformă în text. Pentru a face acest lucru, software-ul de recunoaștere a vorbirii trebuie să se bazeze pe diverse tehnologii și metode analitice. Una dintre acestea este identificarea cuvintelor cheie.
Două tipuri diferite de depistare a cuvintelor cheie funcționează diferit. Prima este identificarea cuvintelor cheie în vorbirea neconstrânsă sau analiza unui flux liniar de fonetică fără întreruperi de cuvinte specificate. Cealaltă formă este cunoscută ca reperarea cuvintelor cheie în recunoașterea cuvintelor izolate, unde software-ul poate avea „indicii” în ceea ce privește tăcerea sau pauzele între cuvinte.
Identificarea cuvintelor cheie în vorbirea neconstrânsă se bazează pe niște programe specifice numite algoritmi. Aceste programe funcționează practic cu „biții” sau fonemele individuale pentru a prezice ceea ce „înseamnă” cel mai probabil sau în ce context sunt cel mai probabil să fie plasate. Un algoritm popular pentru această sarcină se numește codificare Viterbi iterativă, care uneori este explicată. ca găsirea „cea mai mică distanță normalizată” a unei secvențe față de alta, cu alte cuvinte, compararea biților de date pentru „potrivire” care ajută la recunoașterea vorbirii. Unii dintre acești algoritmi sunt extrem de eficienți în interpretarea vorbirii umane fără a o înțelege cu adevărat într-un mod sensibil.
Celălalt tip, depistarea cuvintelor cheie în recunoașterea cuvintelor izolate, folosește uneori ceea ce experții numesc „deformarea dinamică a timpului”. Acest proces analizează viteza sau ritmul pentru a ajuta la recunoașterea vorbirii. Există o mulțime de comparații analitice care ajută la modelarea unui rezultat final, care interpretează cuvintele în mod unic.
Ambele tipuri de strategii de localizare a cuvintelor cheie sunt uneori explicate prin ceea ce profesioniștii numesc „modele Markov ascunse”. Modelul Markov poartă numele omului de știință care l-a conceput și folosește metode statistice complexe pentru a găsi rezultate evazive. Localizarea cuvintelor cheie și alte programe de recunoaștere a vorbirii se bazează în mare măsură pe probabilitate, precum și pe înregistrarea secvențelor și a comparațiilor, astfel încât aparatul să poată genera text care oglindește mai îndeaproape ceea ce este spus de utilizatorul uman.
Tehnologia de vorbire în text se dovedește extrem de utilă pentru convertirea comunicării verbale în pagină fără a fi nevoie de cantități mari de tastare manuală. Este probabil ca instrumentele pentru cuvinte cheie și alte tehnologii vor continua să conducă programe de recunoaștere a vorbirii din ce în ce mai puternice, care vor face comunicațiile mai eficiente pe diferite medii. Tehnologii ca acestea care merg mână în mână cu transferul digital de informații, care va aduce abilități mai diverse lumii moderne și cetățenilor săi.