Słuchanie maszynowe to przetwarzanie dźwięków przez komputer w sposób naśladujący przetwarzanie sygnałów przez człowieka. Komputery można programować i szkolić, aby rozpoznawały i interpretowały szereg sygnałów wejściowych audio. Technologia ta może być stosowana na wiele różnych sposobów, od analizy inteligencji po badanie muzyki. Naukowcy w tej dziedzinie pracują w prywatnych firmach, instytucjach akademickich i agencjach rządowych, aby udoskonalać narzędzia nasłuchiwania maszyn i znajdować nowe zastosowania. Integruje elementy akustyki, elektrotechniki, robotyki i przetwarzania sygnałów.
Aby móc rozpoznawać dźwięki, komputery muszą być w stanie je słyszeć i przetwarzać. Mogą używać przetworników dźwięku do obsługi hałasu otoczenia lub mogą słuchać nagrań. Dźwięki można analizować za pomocą algorytmów, aby określić, czym one są i co z nimi zrobić. Odpowiedzi komputera mogą zależeć od ich programowania, wyszkolenia i poziomu zaawansowania.
Prosty przykład nasłuchiwania przez maszynę można zobaczyć za pomocą klaskaczy i oprogramowania aktywowanego głosem. Klapy pozwalają ludziom włączać i wyłączać obwody za pomocą klaskania, który aktywuje jednostkę bazową. Oprogramowanie, które reaguje na polecenia głosowe, może pozwolić ludziom kontrolować go za pomocą głosu, co wymaga umiejętności identyfikacji głosu i interpretacji dźwięków. Takie programy mogą wykorzystywać szkolenie, aby nauczyć się rozpoznawać konkretnego mówcę i radzić sobie z akcentami, zmianami składni i innymi odmianami między mówcami.
Bardziej złożone odsłuchiwanie maszynowe można wykorzystać w dziedzinach takich jak muzyka, w których naukowcy identyfikują i badają wzorce. Na przykład muzykolodzy sądowi mogą porównywać i przeciwstawiać muzykę z różnych źródeł i mogą wykorzystywać w swojej pracy słuchanie maszynowe. Mogą określić, czy muzyka wydaje się mieć wspólne pochodzenie, czy też ma inne interesujące cechy. Technologię tę można również wykorzystać do badania harmonii i rozwijania teorii na temat brzmienia muzyki historycznej.
Analiza inteligencji opiera się również na nasłuchiwaniu maszyn. Ogromne ilości danych dźwiękowych w postaci rozmów telefonicznych, dyskusji w przestrzeni publicznej itp. mogą wymagać przetworzenia przez agencje wywiadowcze. Płacenie ludziom za wysłuchanie wszystkich nagrań i opracowanie raportów może być kosztowne, a znudzeni słuchacze mogą przegapić ważne informacje. Słuchanie maszynowe może umożliwić agencji automatyczne przetwarzanie dźwięku w celu pobrania danych, które wymagają szczególnej uwagi, w oparciu o słowa kluczowe, akcenty w głosach i inne parametry. Analitycy wywiadu mogą ustalać priorytety swojej pracy na podstawie tej automatycznej analizy, aby najpierw wysłuchać dźwięku, który najprawdopodobniej będzie ważny.