Transkrypcja audio to proces przekształcania słów mówionych w tekst pisany. W przeszłości osoba siadała i pisała słowa tak, jak zostały wypowiedziane. Obecnie istnieją różnego rodzaju nagrania audio i kilka metod transkrypcji. Metody nagrywania analogowego i cyfrowego pozwolą osobie nieobecnej podczas rozmowy na transkrypcję tekstu. Ponadto wiele pakietów oprogramowania odczytuje pliki audio i szybko konwertuje je na tekst bez konieczności ich odtwarzania.
Transkrypcja audio była przez wiele lat zawodem specjalistycznym i żmudnym. Osoby dokonujące transkrypcji mowy musiały być obecne w czasie przemawiania, co często oznacza, że firmy musiałyby zatrudniać osoby przeszkolone w zakresie zaawansowanych technik, takich jak stenografia. To również ograniczało usługi transkrypcji do tych, którzy mieli dostęp do przeszkolonego transkrybenta.
Wraz z wynalezieniem nagrań dźwiękowych ta dziedzina zmieniła się dramatycznie. Dzięki nagraniu transkryber mógł pracować z dowolnego miejsca, w którym można by dostarczyć nagranie. Ponadto transkrypcja nie wymagała już stenografii, ponieważ nagranie można było odwracać i odsłuchiwać wiele razy. Pojedynczy transkrybent mógł również pracować dla wielu klientów jednocześnie, ponieważ nie musiała już być obecna na przemówieniach.
Wraz ze wzrostem wykorzystania komputerów i szybkości Internetu, dziedzina transkrypcji audio pozostała w dużej mierze taka sama. Pliki, a nie taśmy, były często wysyłane pocztą elektroniczną, a nie zwykłą pocztą. Szybkość procesu wzrosła, ale metody nie.
Zmieniło się to pod koniec lat 90. wraz z rosnącym wykorzystaniem oprogramowania do rozpoznawania mowy i dyktowania. Praca polegająca na transkrypcji szła coraz bardziej w kierunku pomocy komputerowej, a następnie pełnej automatyzacji. Pojawiły się pakiety oprogramowania, które potrafiły odczytać informacje zawarte w pliku audio i wykorzystać wzorce fal mówcy do zbudowania tekstowej wersji przemówienia. Zajęłoby to sekundy, a nie minuty lub godziny ludzkiego transkrybenta.
Zautomatyzowana komputerowo transkrypcja dźwięku ma kilka wad, które są trudne do przezwyciężenia, z których największą jest względny brak mowy korekcyjnej. Kiedy transkrybent słucha tekstu, może poprawić drobne błędy w mowie, aby była bardziej czytelna. Chociaż niektóre transkrypcje są dosłowne, co oznacza, że są dokładnie tym, co powiedziała osoba, większość nie. Bez mowy korekcyjnej człowiek często będzie musiał sprawdzić transkrypcję pod kątem błędów przed jej użyciem.
Inna powszechna wada komputerowej transkrypcji dźwięku tkwi w mowie ludzi. Ponieważ ludzie mają ogromną gamę tonów i wzorów, kiedy mówią, stworzenie programu komputerowego, który może dokładnie odczytać i przetłumaczyć cały zakres, jest wyjątkowo trudne. Oznacza to, że w prawie każdym oprogramowaniu do transkrypcji występuje pewien błąd. Najczęstszym sposobem obejścia tego błędu jest wyuczona mowa, w której program i pojedynczy mówca współpracują ze sobą na tyle, aby program skupiał się na wzorcach pojedynczej osoby.