Transkrypcja automatyczna to proces tworzenia pisemnych transkrypcji mowy mówionej lub nagranej za pomocą komputerów i bez bezpośredniej interwencji człowieka. Dokładna automatyczna transkrypcja wymaga wysokiej jakości oprogramowania do transkrypcji i urządzenia, które może dokładnie odbierać dane dźwiękowe. Ogólnie rzecz biorąc, konieczne jest również, aby mowa lub nagranie do transkrypcji było w miarę wolne od zniekształceń i zakłóceń pochodzących z szumu tła. Podejmowano również próby transkrypcji muzyki za pomocą komputerów ze specjalistycznym oprogramowaniem do transkrypcji. Transkrypcja muzyczna polega na wypisaniu nut danego utworu muzycznego, zwłaszcza gdy nie ma dla tej muzyki wcześniejszej notacji, jak ma to miejsce w przypadku improwizowanych solówek.
Dobre oprogramowanie do transkrypcji jest niezbędne do pomyślnej automatycznej transkrypcji. Oprogramowanie odpowiada za przetwarzanie sygnału dźwiękowego, rozdzielanie ciągłego strumienia językowego na oddzielne słowa, rozpoznawanie tych słów i prawidłowe przedstawianie ich w tekście. Niepowodzenie na dowolnym etapie tego procesu zwykle skutkuje transkrypcją, która różni się nieco od materiału źródłowego. Dobre oprogramowanie do automatycznej transkrypcji powinno być w stanie rozpoznać subtelne różnice między podobnymi słowami i zrekompensować różne style i szybkości mowy. Trudne do zrozumienia akcenty wydają się być problematyczne nawet w przypadku najlepszego oprogramowania do transkrypcji.
Niektórzy używają oprogramowania do automatycznej transkrypcji, ponieważ wolą dyktowanie od bezpośredniego pisania lub pisania tekstu. Niektóre formy oprogramowania do automatycznej transkrypcji są szczególnie dobre do tego celu, ponieważ mogą „uczyć się” głosów ludzi, których słowa przepisują. W takich przypadkach automatyczna transkrypcja nie jest używana do tworzenia transkrypcji mowy z różnych źródeł, więc nie ma potrzeby, aby oprogramowanie było otwarte na szeroką gamę wzorców mowy. Dopuszczenie tego procesu optymalizacji, który może nastąpić podczas długotrwałego korzystania z oprogramowania przez jedną osobę lub podczas wstępnej kalibracji, może znacznie zwiększyć dokładność i potencjalną szybkość dyktowania.
Niestety komputery nie są tak dobrze przystosowane do konsekwentnego i dokładnego rozpoznawania ludzkiej mowy, jak ludzie. Nie mogą na przykład korzystać ze wskazówek kontekstowych, jeśli nie rozumieją określonego słowa. W związku z tym często konieczne jest, aby człowiek dokonał korekty transkryptów utworzonych za pomocą automatycznej transkrypcji. Drobne błędy w formatowaniu i różne błędy w transkrypcji są w wielu przypadkach powszechne, chyba że transkrybowana mowa jest bardzo jasna. Mimo to, użycie skomputeryzowanej transkrypcji może szybko stworzyć solidne podstawy dla transkrypcji, która wymaga jedynie ograniczonej interwencji człowieka przed złożeniem lub użyciem.