Co to jest model akustyczny? - Popeye and Cloudy

Model akustyczny jest zasadniczo mapą głosu w odniesieniu do serii wydrukowanych słów. Ta technologia jest używana w programach rozpoznawania mowy, aby pomóc komputerowi nauczyć się rozpoznawać wzorce mowy danej osoby. Model akustyczny jest jednym z dwóch głównych plików niezbędnych do uruchomienia programu do rozpoznawania mowy; drugi to model językowy, który wskazuje prawdopodobne słowa i wzorce mowy, których może używać mówca. Modele te są tworzone przez porównanie szczegółów dźwiękowych wypowiadanego pliku audio z tekstem wypowiadanych słów.

Oprogramowanie do rozpoznawania mowy to oprogramowanie zaprojektowane do rozpoznawania i transkrypcji lub odpowiadania na słowa wypowiedziane przez daną osobę. Wiele systemów operacyjnych zaprojektowano z wbudowanymi podstawowymi funkcjami rozpoznawania mowy, które użytkownik może włączać i wyłączać. Funkcje rozpoznawania mowy w systemach operacyjnych zwykle dają użytkownikowi możliwość kontrolowania komputera i wpisywania słów na ekranie za pomocą swojego głosu.

Aby uzyskać dostęp do oprogramowania do rozpoznawania mowy, użytkownik potrzebuje mikrofonu, który przekazuje głos do komputera, oraz programu przetwarzającego dźwięk. Podczas gdy wiele komputerów ma wbudowane mikrofony, zewnętrzny mikrofon zestawu słuchawkowego zapewnia użytkownikowi czystszy dźwięk głosu i swobodę poruszania się po pokoju podczas mówienia. Samodzielne marki oprogramowania do rozpoznawania mowy obejmują LumenVox®, Loquendo® i Dragon®.

Większość programów do rozpoznawania mowy ma programowanie modeli akustycznych, które umożliwiają programowi rozpoznawanie wariacji w wymowie. Używają wzorców w brzmieniu głosu mówiącego, aby zidentyfikować słowa w mowie. Wiele z nich jest wyposażonych w oprogramowanie konfiguracyjne, które pomaga użytkownikowi stworzyć model akustyczny zaprojektowany do interpretacji jej własnego głosu. Niektóre zaawansowane programy do rozpoznawania mowy mogą identyfikować i interpretować wiele języków, często z niewielką ilością informacji dźwiękowych. Im bardziej zaawansowany program do rozpoznawania mowy, tym większe prawdopodobieństwo, że dokładnie zinterpretuje słowa na podstawie ich kontekstu, w tym miejsca w zdaniu, które zostało wypowiedziane.

Dziedzina badań, która rozwija technologię rozpoznawania mowy, nazywa się lingwistyką obliczeniową. Językoznawstwo komputerowe obejmuje badania i projektowanie, które tworzą oprogramowanie zaprogramowane do rozumienia ludzkiej mowy. Pole to często zawiera informacje z badań psychologicznych w celu stworzenia modeli akustycznych, które mogą dokładniej interpretować mowę.

Słowo „akustyka” ogólnie odnosi się do wszystkiego, co ma związek z dźwiękiem. Chociaż modele akustyczne są najczęściej używane w rozpoznawaniu mowy, można je również wykorzystać w muzyce. Akustyczny model ścieżki muzycznej może identyfikować właściwości, takie jak uderzenia na minutę, klawisze muzyczne lub dominujące wysokości w muzyce. Informacje te mogą zostać wykorzystane przez program komputerowy do zidentyfikowania utworu muzycznego lub do luźnego określenia gatunku, w którym muzyka jest prawdopodobnie sklasyfikowana. Modele akustyczne są również wykorzystywane w dziedzinie badań zwanej psychoakustyką, w której naukowcy mają nadzieję nauczyć się konstruować muzykę, która w przewidywalny sposób wpływa na mózg.

Co to jest przetwarzanie mowy?

Jak wybrać najlepsze darmowe oprogramowanie do rozpoznawania mowy?

Co to jest wydobywanie dźwięku?

Co to jest weryfikacja mowy?