Co to jest korpus mowy?

Korpus mowy, znany również jako korpus mówiony, to zbiór mów zachowanych w formacie audio lub tekstowym. Zbiory te są przydatne w tworzeniu oprogramowania mowy i prowadzeniu badań lingwistycznych. Dwie odmiany korpusu mowy to mowa spontaniczna i mowa czytana.
Ważne jest, aby zdefiniować, co oznaczają słowa „mowa” i „korpus”. Mowa to zbiór myśli i faktów, zwykle w formie mówionej. Można również postrzegać każdą wypowiedź ustną jako mowę. Korpus z kolei odwołuje się do formalnego zbioru różnych informacji.

Użytkownicy zazwyczaj tworzą korpus mowy za pomocą nagrań dźwiękowych lub transkrypcji tekstowych. Nagrania mogą być dokonywane za pomocą technologii przechowywania dźwięku i przechowywane — często jako pliki MP3 w elektronicznych bazach danych — w celu stworzenia korpusu. Z drugiej strony transkrybent przekształca mowę mówioną w formę pisemną, która jest następnie kompilowana z innymi transkrypcjami.

W korpusie mowy można znaleźć dowolny rodzaj mowy, ale takie bazy danych są generalnie podzielone na dwie kategorie. Pierwsza, spontaniczna mowa, zawiera niesformalizowane przemówienia, które dana osoba może wygłosić, takie jak te, które można znaleźć w rozmowach lub ustnym opowiadaniu historii. Przemówienia czytane mają jednak bardziej sformalizowaną i wcześniej zaplanowaną strukturę. Przykładami mogą być przemówienia polityczne, audycje informacyjne i czytanie książek audio. Niektóre odmiany mogą zależeć od konkretnego kontekstu, na przykład wywiady.

Jedną z głównych zalet narzędzi korpusu mowy jest ich praktyczna przydatność w tworzeniu oprogramowania opartego na mowie. Na przykład wiele komputerów i innych urządzeń elektronicznych oferuje funkcje rozpoznawania mowy jako opcję, takie jak odczytywanie wpisywanego tekstu, przekształcanie wypowiadanych słów w tekst lub identyfikowanie mówcy za pomocą unikalnych cech wokalnych. Ekstrakty z korpusu mowy mogą pomóc w ulepszeniu tej technologii poprzez zastosowanie matematycznych zestawów statystyk zwanych modelami akustycznymi do każdego pojedynczego dźwięku. Ponadto bazy danych mogą pomóc w tworzeniu taśm audio do nauki języków.

Te funkcje są powiązane z inną aplikacją dla korpusu mowy. Mianowicie, uczeni mogą wziąć te zachowane pliki dźwiękowe lub pisemne i zbadać subtelne odmiany gramatyczne, które składają się na język. Dlatego korpus mowy może służyć jako cenne narzędzie do nauki wymowy, szyku wyrazów i innych modeli językowych. Naukowcy mogą dalej porównywać podobieństwa i różnice w różnych regionalnych dialektach i językach, jeśli stworzą kolekcję wielojęzyczną lub wielojęzyczny korpus. Ewaluacja korpusów z udziałem mowy to wyspecjalizowane skupienie badawcze znane jako lingwistyka korpusowa, a jej skomputeryzowana implementacja nazywana jest lingwistyką obliczeniową.

Wiele baz danych transkrypcji zawiera notacje lub znaczniki, które zawierają informacje o poszczególnych składnikach w fragmencie tekstu. Ten proces nazywa się adnotacją. W procesie abstrahowania lingwiści będą dokumentować i tłumaczyć różne terminy w przemówieniu. Taki wkład może być przydatny, jeśli dana osoba chce dowiedzieć się o nieznanych cywilizacjach z tekstów. Ostatnim etapem badania korpusu jest analiza lub wyprowadzenie porównań i ideałów teoretycznych ze zbioru komponentów mowy.

Co to jest przetwarzanie mowy?

Co to jest architektura hurtowni danych?

Co to jest weryfikacja mowy?