Co to jest wydobywanie dźwięku?

Eksploracja dźwięku jest zwykle wykorzystywana w oprogramowaniu do rozpoznawania mowy i analizie muzyki. Technologia ta daje użytkownikowi możliwość wyszukiwania mowy lub muzyki, która została przeanalizowana pod kątem określonych cech. W przypadku użycia w technologii rozpoznawania mowy, eksploracja dźwięku identyfikuje wypowiadane słowa w dźwięku i umieszcza je w przeszukiwalnym pliku. Ta funkcja może być przydatna dla studentów lub osób ze świata biznesu, które uczestniczą w wielu spotkaniach, ponieważ pozwala użytkownikowi na łatwiejsze przeglądanie aktualnych informacji z prezentacji mowy. Ten rodzaj analizy może być również używany w muzyce do określania cech, takich jak uderzenia na minutę (BPM), tonacja muzyczna i struktura muzyczna, czyli informacje wykorzystywane do klasyfikacji muzyki.

W rozpoznawaniu mowy, gdzie ta technologia jest najczęściej wykorzystywana, do tworzenia modelu akustycznego wykorzystuje się wydobywanie dźwięku. Model akustyczny programuje oprogramowanie do rozpoznawania mowy do rozpoznawania wzorców mowy jako słów. Ta technologia jest rozwijana przez wydobywanie dźwięku z nagrania wypowiadanej frazy, które jest porównywane z tekstem pasującym do wypowiadanej frazy. Komputer wykorzystuje te informacje do rozpoznawania słów, gdy użytkownik wydaje dźwięki podobne do tych w modelu akustycznym. Model akustyczny jest używany w połączeniu z plikiem, który informuje program rozpoznawania mowy, jaki język ma interpretować i jakie wzorce słów mogą być wypowiadane w określonych zdaniach i sytuacjach.

Zarówno muzycy, jak i słuchacze muzyki mogą czerpać korzyści z wydobywania dźwięku w muzyce. Czasami oprogramowanie muzyczne, które kategoryzuje muzykę według gatunku, wykorzystuje eksplorację dźwięku do organizowania muzyki. Proces identyfikuje i grupuje pliki muzyczne o podobieństwach dźwiękowych, które często występują w gatunkach muzycznych. Chociaż ta technologia może ułatwić organizowanie muzyki i znajdowanie nowej muzyki, może ona powodować błędy w klasyfikowaniu utworów o podobnej charakterystyce pomiarowej, ale innym ogólnym brzmieniu. Oprogramowanie do analizy dźwięku może być przydatne dla muzyków, zwłaszcza kompozytorów, ponieważ umożliwia kompozytorowi przeskakiwanie do określonych części struktury utworu, w tym zmian tonacji muzycznych i słów w tekście.

Producent oprogramowania do rozpoznawania mowy, Dragon®, sprzedaje program o nazwie AudioMining®, który transkrybuje pliki audio i oznacza je, aby można było w nich wyszukiwać tekst. Dragon to producent komputerowych programów lingwistycznych, termin techniczny określający dziedzinę oprogramowania przeznaczonego do interpretacji mowy. Eksploracja dźwięku, gdy jest używana jako dwa słowa, jest ogólnym terminem odnoszącym się do analizy pliku dźwiękowego pod kątem określonego zestawu cech dźwięku. Inni producenci oprogramowania do wydobywania dźwięku to Nuance® i Nexidia®.