Ποια είναι τα πιο κοινά προβλήματα αναγνώρισης ομιλίας;

Το λογισμικό αναγνώρισης ομιλίας έχει προχωρήσει πολύ από τότε που πρωτοεφευρέθηκε, αλλά εξακολουθεί να έχει αρκετά μεγάλα προβλήματα που εμποδίζουν τη χρήση του αποκλειστικά ως μέθοδος μεταγραφής. Μερικά από τα προβλήματα αναγνώρισης ομιλίας που είναι δύσκολο να επιλυθούν περιλαμβάνουν παραλλαγές στην προφορά των λέξεων, μεμονωμένους τόνους, ομώνυμα και ανεπιθύμητους θορύβους περιβάλλοντος. Ένα άλλο σύνολο προβλημάτων αναγνώρισης ομιλίας περιλαμβάνει τον τύπο του υλικού που χρησιμοποιείται για την πραγματική εισαγωγή του ήχου, επειδή τα αποτελέσματα μπορούν να έχουν μεγάλο αντίκτυπο στον τρόπο με τον οποίο το λογισμικό θα ερμηνεύσει την ομιλία. Υπάρχει επίσης το πρόβλημα της μη γνώσης του πλαισίου των λέξεων που εκφωνούνται, κάτι που μπορεί να οδηγήσει σε κείμενο που δεν έχει σημεία στίξης ή ανακριβή ορθογραφία.

Ένα από τα πιο βασικά προβλήματα αναγνώρισης ομιλίας είναι η ποιότητα των συσκευών εισόδου που χρησιμοποιούνται. Εάν ένα μικρόφωνο δεν είναι αρκετά ευαίσθητο — ή είναι υπερβολικά ευαίσθητο — τότε μπορεί να δημιουργήσει πληροφορίες ήχου που είναι δύσκολο να αποκρυπτογραφήσει το λογισμικό. Αυτό ισχύει ιδιαίτερα όταν ένα μικρόφωνο είναι τόσο ευαίσθητο ώστε η ομιλία παραμορφώνεται, καθιστώντας το λογισμικό αναγνώρισης σχεδόν άχρηστο. Ένα παρόμοιο πρόβλημα προέρχεται από το θόρυβο του παρασκηνίου που μπορεί να είναι προβληματικό να διαχωριστεί από την κύρια ομιλία και μπορεί να προκαλέσει ανακριβείς μεταφράσεις όταν περιλαμβάνονται στην επεξεργασία ομιλίας.

Οι διαφορές στην προφορά, τον τόνο και τον ρυθμό ομιλίας συνδυάζονται για να σχηματίσουν ένα από τα πιο διάχυτα προβλήματα αναγνώρισης ομιλίας. Όταν μια λέξη μπορεί να προφερθεί με πολλούς τρόπους, το λογισμικό μπορεί να μπερδευτεί και να παρερμηνεύσει αυτό που λέγεται. Το ίδιο μπορεί να συμβεί όταν ένα άτομο μιλάει πιο αργά ή πιο γρήγορα από ό,τι αναμένει το πρόγραμμα. Υπάρχουν μερικές επιμέρους λύσεις, όπως η εκπαίδευση του λογισμικού στα μοτίβα ομιλίας ενός μεμονωμένου χρήστη και η χρήση αλγορίθμων δυναμικής στρέβλωσης χρόνου για την αντιστοίχιση της ομιλίας με τη βάση δεδομένων των δειγμάτων, αλλά δεν επιλύουν όλα τα προβλήματα.

Το πιο περίπλοκο από τα προβλήματα αναγνώρισης ομιλίας είναι ο εντοπισμός του πλαισίου των λέξεων που εκφωνούνται. Το λογισμικό υπολογιστή δεν είναι σε θέση να προσδιορίσει το επιδιωκόμενο νόημα μιας συλλογής λέξεων, οδηγώντας σε μια σειρά προβλημάτων με το μεταγραμμένο κείμενο. Λέξεις που έχουν παρόμοιο ήχο, όπως “τους” και “εκεί”, μπορούν να γραφτούν με ακρίβεια μόνο όταν είναι γνωστό το πλαίσιο χρήσης. Για τον ίδιο λόγο, τα ακριβή σημεία στίξης είναι σχεδόν αδύνατο για το λογισμικό να τοποθετήσει με βάση μόνο τη γνώση της αλληλουχίας των λέξεων. Υπάρχει λειτουργικό λογισμικό μεταγραφής που χρησιμοποιείται σε τομείς όπως η ιατρική, αλλά το αποτέλεσμα είναι συχνά ένα μπλοκ λέξεων χωρίς κανένα είδος διαχωρισμού, που σημαίνει ότι χρειάζεται ακόμα ένας ανθρώπινος μεταγραφέας για να επεξεργαστεί το έγγραφο και να δημιουργήσει ένα ευανάγνωστο τελικό αντίγραφο.