Τι είναι η Σύνθεση Λόγου;

Η σύνθεση του λόγου είναι μια διαδικασία όπου η λεκτική επικοινωνία αναπαράγεται μέσω μιας τεχνητής συσκευής. Ένας υπολογιστής που μετατρέπει κείμενο σε ομιλία είναι ένα είδος συνθέτη ομιλίας.

Οι πρώτες μορφές σύνθεσης ομιλίας εφαρμόστηκαν μέσω μηχανημάτων σχεδιασμένων να λειτουργούν όπως η ανθρώπινη φωνητική οδός. Η μηχανή ομιλίας που δημιουργήθηκε από τον Wolfgang von Kempelen το 1700 είναι ένα παράδειγμα. Με αυτή τη συσκευή, η ομιλία παρήχθη μέσω ενός φυσητήρα κουζίνας, ενός καλαμιού γκάιντας και ενός κουδουνιού κλαρινέτου. Η φυσούνα της κουζίνας σχεδιάστηκε για να λειτουργεί σαν πνεύμονας, ενώ η γλωττίδα (η περιοχή των φωνητικών χορδών) αναπαριστούσε μέσα από το καλάμι της γκάιντας. Το κουδούνι του κλαρίνου χρησίμευε ως στόμιο.

Η λειτουργία της συσκευής ήταν εντελώς χειροκίνητη. Το δεξί χέρι έλεγχε μια σειρά από μοχλούς ενώ το αριστερό χειριζόταν την καμπάνα του κλαρίνου (στόμα). Υπήρχε επίσης η επιλογή να βουλώσουν τα «ρουθούνια», για να παράγουν λιγότερο ρινικό ήχο. Είτε έτσι είτε αλλιώς, εφόσον χρησιμοποιήθηκαν σωστά τα βασικά χειριστήρια, το μηχάνημα λάμβανε ροή αέρα. Αυτή η ροή αέρα καθόριζε τους τύπους των ήχων που θα παράγονταν.

Οι επόμενες μηχανές ομιλίας κατά τον 18ο και 19ο αιώνα διατήρησαν αυτή τη ρύθμιση, αν και υπήρξαν βελτιώσεις. Για παράδειγμα, στα τέλη του 1800, ο Joseph Faber δημιούργησε μια μηχανή ομιλίας που μπορούσε να λάβει είσοδο μέσω ενός πληκτρολογίου και ενός πεντάλ. Το μηχάνημα ήταν επίσης πολύ δημιουργικό, καθώς ο ήχος έβγαινε μέσα από ένα τεχνητό «πρόσωπο».

Όταν ήρθε ο 20ός αιώνας, οι καινοτομίες στην ηλεκτρονική επέτρεψαν στη σύνθεση ομιλίας να πάρει μια ακόμη πιο ισχυρή κατεύθυνση. Αν και η αρχή της μίμησης της ανθρώπινης φωνητικής οδού ήταν ακόμα η ίδια, οι μηχανές ομιλίας των αρχών του 20ου αιώνα μπορούσαν να παράγουν καλύτερους ήχους, καθώς η είσοδος ήταν πιο ακριβής.

Ωστόσο, μόλις εμφανίστηκαν οι υπολογιστές, η σύνθεση ομιλίας μπορούσε πραγματικά να χρησιμοποιηθεί εκτός της αρένας της ψυχαγωγίας. Αυτό οφείλεται κυρίως στο ότι οι συνθέτες ομιλίας θα μπορούσαν να αποθηκευτούν σε λογισμικό αντί για ξεχωριστό μηχάνημα. Επιπλέον, με τους υπολογιστές ως βοήθημα, η σύνθεση ομιλίας θα μπορούσε να πάρει διαφορετική μορφή. χρησιμοποιώντας τις ανθρώπινες φωνές ως κύρια πηγή ήχου.

Αυτή η μορφή σύνθεσης ομιλίας είναι γνωστή ως συνενωτική. Η διαδικασία λειτουργεί συνδέοντας διάφορες εγγραφές ανθρώπινης ομιλίας. Ο ήχος που προκύπτει είναι πολύ πιο φυσικός και ευχάριστος στο αυτί. Αυτό έρχεται σε αντίθεση με τα προγράμματα που χρησιμοποιούν αρθρωτική σύνθεση, όπου η ομιλία αναπαράγεται μέσω ενός ηλεκτρονικού μοντέλου της φωνητικής οδού.
Οι εμπορικοί συνθέτες ομιλίας μπορούν να χρησιμοποιούν είτε συνδυαστικές ή αρθρωτικές μεθόδους, αλλά και οι δύο μπορούν να επιτύχουν τον ίδιο στόχο. να είναι σε θέση να δώσει στους ανθρώπους την ευκαιρία να ακούσουν κείμενο. Αυτό είναι ιδιαίτερα χρήσιμο σε καταστάσεις όπου η ανάγνωση είναι ενοχλητική ή αδύνατη.

Στον επιχειρηματικό κόσμο, τέτοιες καταστάσεις είναι πολύ συχνές, ειδικά για τις τηλεφωνικές συναλλαγές. Χωρίς εναλλακτικές λύσεις μετατροπής κειμένου σε ομιλία (TTS), οι ιδιοκτήτες επιχειρήσεων θα έπρεπε να ξοδέψουν χρήματα προσλαμβάνοντας ακόμη περισσότερο προσωπικό εξυπηρέτησης πελατών. Οι συνθετικές λύσεις αποφεύγουν αυτό το πρόβλημα, καθώς όλα γίνονται μέσω υπολογιστή. όχι άνθρωπος.
Η συνθετική ομιλία παίζει επίσης ρόλο στην καθημερινή ζωή, ειδικά για τα άτομα με αναπηρία. Τα ρολόγια που μιλάνε, τα λεξικά και άλλες συσκευές μπορούν να κάνουν τα πράγματα πιο εύκολα για άτομα που έχουν πρόβλημα να βλέπουν ή να διαβάζουν. Η συνθετική ομιλία μπορεί ακόμη και να δώσει φωνή σε άτομα που δεν μπορούσαν να μιλήσουν καθόλου. Ο Steven Hawking, ένας διάσημος φυσικός, είναι ένα χαρακτηριστικό παράδειγμα. Δεδομένου ότι η νόσος του Λου Γκέριγκ τον έχει καταστήσει βουβό, ο Χόκινγκ χρησιμοποιεί έναν συνθέτη φωνής για να επικοινωνεί με τους ανθρώπους.

Υπάρχουν επίσης διαθέσιμες εφαρμογές TTS για να βοηθήσουν άτομα με διάφορες δραστηριότητες υπολογιστή. Για να αποκτήσουν αυτούς τους τύπους εφαρμογών, οι περισσότεροι χρήστες θα πρέπει να αγοράσουν ξεχωριστό λογισμικό ή να κατεβάσουν ενημερώσεις κώδικα. Η τελευταία επιλογή είναι συνήθως δωρεάν, ανάλογα με το λειτουργικό σύστημα ή το πρόγραμμα επεξεργασίας κειμένου που χρησιμοποιείται. Ωστόσο, εάν ένα άτομο αποφασίσει να αγοράσει ξεχωριστό λογισμικό, θα μπορούσε να έχει πρόσβαση σε ένα σύστημα υψηλότερης ποιότητας. Μπορείτε να δείτε συγκεκριμένα παραδείγματα μέσω του Natural Reader 7 και του Text Aloud 2.
Τελικά, η σύνθεση ομιλίας είναι τεχνολογία που έχει φέρει επανάσταση στον τρόπο επικοινωνίας της ανθρωπότητας. Κατά μία έννοια δίνει στο κείμενο μια δική του ζωή. Δίνει επίσης στον κόσμο την ευκαιρία να ακούσει τις σκέψεις λαμπρών ατόμων που κανονικά θα ήταν άφωνοι.