Τι είναι η λίστα συχνοτήτων;

Η λίστα συχνοτήτων είναι ένα εργαλείο για ποσοτική γλωσσική ανάλυση, μια λίστα με όλα όσα εμφανίζονται σε ένα επιλεγμένο τμήμα κειμένου και πόσο συχνά εμφανίζεται. Η γλωσσική ανάλυση είναι ένα διεπιστημονικό πεδίο που μελετά τη δομή της γλώσσας και τον τρόπο χρήσης της. Συνδυάζοντας στοιχεία ανθρωπολογίας, μαθηματικών, πληροφορικής και λογικής, η γλωσσική ανάλυση χρησιμοποιείται για έργα όπως η μηχανική μετάφραση, η κρυπτογραφία και η αποκρυπτογράφηση αρχαίων γραπτών.

Οι λίστες συχνοτήτων μπορεί να είναι λίστες λέξεων ή γραμμάτων. Οι συχνότητες γραμμάτων χρησιμοποιούνται συνήθως στην κρυπτογραφία. Ένας από τους απλούστερους κωδικούς είναι ένας κρυπτογράφησης αντικατάστασης, όπου κάθε γράμμα αντικαθίσταται με άλλο γράμμα ή σύμβολο. Για παράδειγμα, το μήνυμα “επίθεση την αυγή” μπορεί να κωδικοποιηθεί ως “zoozhl zo azqp”. Το πλεονέκτημα των κρυπτογράφων αντικατάστασης είναι ότι δεν απαιτούν βιβλίο κωδικών, αλλά η αδυναμία είναι ότι μπορούν να σπάσουν συγκρίνοντας τη συχνότητα των γραμμάτων και συνδυασμών γραμμάτων μέσα στο μήνυμα με μια λίστα συχνοτήτων κοινής χρήσης.

Στο The Adventure of the Dancing Men του Άρθουρ Κόναν Ντόιλ, ο φανταστικός ντετέκτιβ Σέρλοκ Χολμς χρησιμοποιεί ανάλυση συχνότητας για να σπάσει έναν κρυπτογράφηση αντικατάστασης. Ιστορικά, οι δημιουργοί κωδικών προσπάθησαν διάφορα κόλπα για να κάνουν τους κρυπτογραφημένους τους πιο δύσκολους να σπάσουν με μια λίστα συχνοτήτων: κυλιόμενοι κρυπτογράφηση όπου η αντικατάσταση που χρησιμοποιήθηκε εξαρτιόταν από τη θέση ενός γράμματος μέσα στο μήνυμα, εξαλείφοντας ή κωδικοποιώντας κενά ώστε να μην μπορούν να χρησιμοποιηθούν οι συχνότητες λέξεων, διατήρηση μηνυμάτων σύντομες και αποφεύγοντας τις αναμενόμενες λέξεις, έτσι ώστε οι παραβάτες κωδικών να μην έχουν αρκετό δείγμα για να χρησιμοποιήσουν για ανάλυση συχνότητας. Τελικά, κάθε κρυπτογράφηση μπορεί να σπάσει με ένα αρκετά μεγάλο δείγμα, γι’ αυτό και πιο εξελιγμένα πρωτόκολλα κρυπτογράφησης έχουν γίνει τυπικά.

Οι λίστες συχνοτήτων λέξεων και τύπων λέξεων χρησιμοποιούνται επίσης στις αρχαίες γλωσσικές μελέτες. Όταν ο Jean-Francois Champollion μετέφρασε την πέτρα της Ροζέτας τη δεκαετία του 1820, η διαδικασία του χρησιμοποίησε ένα μείγμα σύγκρισης συχνοτήτων και μεταγραμματισμών για να συνδυάσει την ιερογλυφική ​​γλώσσα. Μελέτες έχουν δείξει ότι για τις αρχαίες γλώσσες, όπως και για τα σύγχρονα αγγλικά, ένα βασικό λεξιλόγιο από 1,500 έως 2,000 λέξεις καλύπτει το 85-90 τοις εκατό των κοινών κειμένων, ένα επίπεδο που επιτρέπει στον αναγνώστη να επεκτείνει το λεξιλόγιό του από τα συμφραζόμενα.

Ο νόμος του Zipf, που πήρε το όνομά του από τον καθηγητή γλωσσολογίας του Χάρβαρντ, George Kingsley Zipf, είναι μια εμπειρική παρατήρηση σχετικά με τη συμπεριφορά των αξιολογήσεων συχνότητας. Δηλώνει ότι η συχνότητα ενός γεγονότος είναι αντιστρόφως ανάλογη με την κατάταξη του γεγονότος. Το συμβάν είναι γενικά μια λέξη ή γράμμα σε μια λίστα γλωσσικών συχνοτήτων, αλλά ο νόμος του Zipf έχει γενικευτεί για να καλύψει άλλα φαινόμενα, όπως πληθυσμούς πόλεων και εταιρικά κέρδη.

Η λίστα συχνοτήτων είναι ένα σημαντικό εργαλείο σε έργα που βοηθά τους υπολογιστές να κατανοήσουν την προφορική και γραπτή γλώσσα. Η μηχανική μετάφραση — η χρήση υπολογιστών για τη μετάφραση εγγράφων από τη μια γλώσσα στην άλλη — είναι ένα παράδειγμα. Ένα άλλο παράδειγμα είναι ο Watson, ο υπερυπολογιστής φυσικής γλώσσας που παρουσιάστηκε ως διαγωνιζόμενος στην τηλεοπτική εκπομπή Jeopardy! τον Φεβρουάριο του 2011. Οι συχνότητες τόσο των λέξεων όσο και των τύπων χρήσης ενσωματώνονται στον προγραμματισμό τους ως εργαλείο για την εύρεση νοήματος.