Τι είναι η λεξιλογική πυκνότητα;

Η λεξική πυκνότητα αναφέρεται στην αναλογία λεξιλογικών και λειτουργικών λέξεων σε οποιοδήποτε δεδομένο κείμενο ή συλλογές κειμένου. Είναι κλάδος της υπολογιστικής γλωσσολογίας και της γλωσσικής ανάλυσης. Συνδέεται με το λεξιλόγιο, τις γνωστές λέξεις οποιουδήποτε ατόμου και μπορεί να χρησιμοποιηθεί για τη σύγκριση των προφορικών και γραπτών λεξικών οποιουδήποτε ατόμου. Το λεξικό διαφέρει από το συνολικό λεξιλόγιο επειδή δεν περιλαμβάνει λειτουργικές λέξεις όπως αντωνυμίες και σωματίδια.

Η πυκνότητα μιας ομιλίας ή κειμένου υπολογίζεται συγκρίνοντας τον αριθμό των λεξιλογικών λέξεων και τον αριθμό των λειτουργικών λέξεων. Οι σύντομες προτάσεις και τα μικρά κείμενα μπορούν να υπολογιστούν χρησιμοποιώντας νοητική αριθμητική ή με απλή μέτρηση. Οι μεγαλύτερες συγκρίσεις, ας πούμε του Charles Dickens ή του William Shakespeare, γίνονται με την τροφοδοσία των πληροφοριών σε ένα πρόγραμμα υπολογιστή. Το πρόγραμμα θα κοσκινίσει το κείμενο σε λειτουργικές και λεξιλογικές λέξεις.

Η ισορροπημένη λεξιλογική πυκνότητα είναι περίπου 50 τοις εκατό. Αυτό σημαίνει ότι η μισή κάθε πρόταση αποτελείται από λεξιλογικές λέξεις και η μισή από λειτουργικές λέξεις. Ένα κείμενο χαμηλής πυκνότητας θα έχει αναλογία μικρότερη από 50:50 και ένα κείμενο υψηλής πυκνότητας θα έχει περισσότερο από 50:50. Ακαδημαϊκά κείμενα και κυβερνητικά έγγραφα γεμάτα ορολογία τείνουν να παράγουν την υψηλότερη πυκνότητα.

Ένα ελάττωμα στον υπολογισμό της λεξιλογικής πυκνότητας είναι ότι δεν λαμβάνει υπόψη τις διαφορετικές μορφές και περιπτώσεις των συστατικών λέξεων. Η στατιστική ανάλυση στοχεύει μόνο στη μελέτη της αναλογίας των τύπων λέξεων. Δεν παράγει μελέτη της λεξιλογικής γνώσης ενός ατόμου. Εάν συνέβαινε, η ανάλυση λεξιλογικής πυκνότητας θα διαφοροποιούσε μεταξύ μορφών όπως “δώσε” και “δώσε”. Θεωρητικά, η λεξιλογική πυκνότητα μπορεί να εφαρμοστεί σε κείμενα προκειμένου να μελετηθεί η συχνότητα ορισμένων λεξικών ενοτήτων.

Το γραπτό λεξικό ενός ατόμου μπορεί να βοηθηθεί με τη χρήση λεξικών και θησαυρών. Τέτοια εργαλεία παρέχουν εναλλακτικές λέξεις και διευκρινίζουν τις έννοιες. Όταν μιλάει, ένα άτομο πρέπει να βασίζεται μόνο στο νοητικό λεξιλόγιό του. Αυτό σημαίνει ότι η λεξική πυκνότητα μπορεί να χρησιμοποιηθεί ως εργαλείο σύγκρισης προφορικών και γραπτών λεξικών. Η λεξιλογική πυκνότητα των προφορικών γλωσσών τείνει να είναι χαμηλότερη από αυτή ενός γραπτού κειμένου.

Η υπολογιστική γλωσσολογία είναι ένας τομέας στατιστικής μοντελοποίησης της γλωσσικής ανάλυσης. Γεννήθηκε από τον Ψυχρό Πόλεμο και την επιθυμία της Αμερικής να χρησιμοποιήσει υπολογιστές για να μεταφράσει κείμενα από τα ρωσικά στα αγγλικά. Για να γίνει αυτό απαιτούνταν η χρήση μαθηματικών, στατιστικών, τεχνητής νοημοσύνης και προγραμματισμού υπολογιστών. Το μεγαλύτερο πρόβλημα για τους προγραμματιστές ήταν να κατανοήσουν τον υπολογιστή πολύπλοκη γραμματική και ρεαλιστική γλώσσα. Αυτό οδήγησε στη θεωρία του China Room ότι οι υπολογιστές μπορούν να εκτελούν κυριολεκτικές μεταφράσεις λέξεων, αλλά δεν μπορούν, τελικά, να κατανοήσουν γλώσσες.