Co to jest dynamiczne zniekształcanie czasu?

Dynamiczne dopasowanie czasu (DTW) obejmuje metodę obliczania, zwaną algorytmem, służącą do porównywania dźwięków, wideo i grafiki, które mogą być podobne, ale których próbki mogą mieć subtelne różnice. Obliczenia zazwyczaj formułują liniową reprezentację próbki i mierzą różnice w funkcji czasu. Różne elementy próbki można odwzorować na siatce w celu zidentyfikowania podobieństw, podczas gdy polecenia funkcji często używają symboli do identyfikacji każdej zmiennej. Na przykład rozpoznawanie mowy czasami wykorzystuje dynamiczne dopasowanie czasu, aby dopasować słowa, nawet jeśli są wypowiadane z różną szybkością lub niektóre części są wymawiane inaczej.

Wiele programów do rozpoznawania mowy używa dynamicznego dopasowania czasu, ponieważ ludzie często mówią w różnym tempie. Niektóre samogłoski mogą być wypowiadane w różny sposób w zależności od emocji lub innych czynników. Niektóre programy mogą rozpoznawać wypowiedziane słowa bez względu na to, kto mówi. Z tego powodu sumowanie odległości w odstępach czasu w celu porównywania dźwięków jest zwykle nieskuteczne. Dzięki DTW analizowane są różne punkty czasowe dla każdego sygnału; te odległości są obliczane na siatce biegnącej od lewego dolnego do prawego górnego rogu.

Podobieństwa w odpowiednich częściach dwóch próbek można zmierzyć za pomocą odległości Levenshteina. Litery służą do reprezentowania zmian między jednym źródłem a drugim. Rozwiązaniem algorytmu jest zazwyczaj większa liczba, im bardziej różnią się te dwie próbki. Pojęcie to jest często używane do rozpoznawania mowy, sprawdzania pisowni i analizy materiału genetycznego.

W niektórych pomiarach zmiany częstotliwości mogą zniwelować zdolność dynamicznego dopasowania czasu. Sygnały można obliczyć w taki sposób, aby ich forma była używana niezależnie od częstotliwości. Sygnały modulowane również mogą stanowić problem, ale siatka obliczająca odległości między odcinkami linii zamiast punktów może to kompensować.

Dopasowanie sekwencji jest generalnie matematyczne i potrzebne są pewne umiejętności programowania komputerowego, aby w pełni je zrozumieć. Algorytmy dynamicznego dopasowania czasu zależą od pewnych podstawowych warunków realistycznego obliczania różnic między próbkami audio i wizualnymi. Biorąc pod uwagę próbkę jako ścieżkę wzdłuż siatki, algorytm często kieruje się regułami, takimi jak ścieżka nie może zawrócić i że jest mierzona krok po kroku. Oprócz formatu od lewego dolnego do prawego górnego, pomiary są ograniczone do lokalizacji w pobliżu ukośnej linii. Wartości, które są zbyt strome lub zbyt płytkie, są często ignorowane, ponieważ mogą powodować błędy w ostatecznym pomiarze.

Co to jest przetwarzanie mowy?

Co to jest poszerzenie prawego przedsionka?

Co to jest weryfikacja mowy?

Co to jest powtarzanie mowy?