Ο προσδιορισμός περιεχομένου συμβαίνει όταν ένα άτομο, ομάδα ή πρόγραμμα αποφασίζει ποιες πληροφορίες πρέπει να συμπεριληφθούν ή να εξαιρεθούν σε ένα έγγραφο ή κείμενο. Σχετίζεται με έννοιες που περιβάλλουν τη δομή εγγράφων. Σχετίζεται επίσης με τη δημιουργία φυσικής γλώσσας και την υπολογιστική γλωσσολογία. Κάθε τομέας μελέτης χρησιμοποιεί προσδιορισμό περιεχομένου για να εξετάσει πώς επιλέγονται οι πληροφορίες.
Όταν εξετάζετε τι πρέπει να τοποθετήσετε σε ένα έγγραφο ή κείμενο, ο μεταγλωττιστής θα έχει πραγματοποιήσει την έρευνά του ή θα έχει λάβει όλα τα διαθέσιμα δεδομένα. Ο προσδιορισμός περιεχομένου καλύπτει τους τρόπους με τους οποίους αυτές οι πληροφορίες περιορίζονται στο τελικό έγγραφο. Αυτό γίνεται καθορίζοντας ποια είναι η γωνία ή ο στόχος του κειμένου και ποιες πληροφορίες μέσα στο κείμενο είναι σχετικές με αυτό.
Η δεύτερη θεώρηση του προσδιορισμού του περιεχομένου είναι το στυλ του. Αυτό τείνει να εξαρτάται από τη φύση του επιδιωκόμενου κοινού. Η διάνοια και η εξοικείωση του κοινού με το θέμα θα αλλάξει τη λεξιλογική πυκνότητα και την πολυπλοκότητα των πληροφοριών που μεταδίδονται. Οι ακαδημαϊκοί θα τείνουν να παράγουν πιο πυκνά κείμενα από τα κουτσομπολιά, για παράδειγμα. Άλλες σκέψεις περιλαμβάνουν το μέγεθος της μορφής, είτε πρόκειται για βιβλίο, άρθρο ή μήνυμα κειμένου.
Κάθε κατάσταση προσδιορισμού περιεχομένου γίνεται από έναν άνθρωπο. Υπάρχει ο ερευνητής και ο συγγραφέας, που είναι συχνά, αλλά όχι πάντα, το ίδιο πρόσωπο, και μετά ο εκδότης ή οι συντάκτες. Κάθε επίπεδο έχει μια γνώμη σχετικά με το περιεχόμενο που σχετίζεται με τον στόχο του κειμένου. Οι γλωσσολόγοι υπολογιστών και οι μηχανικοί υπολογιστών έχουν αναζητήσει τρόπους αναπαραγωγής αυτού του συστήματος χρησιμοποιώντας προγράμματα υπολογιστών αντί να βασίζονται σε ανθρώπους.
Υπάρχουν τρεις υπολογιστικές τεχνικές που χρησιμοποιούνται από τους υπολογιστές σχετικά με τον προσδιορισμό του περιεχομένου. Η «τεχνική σχήματος» βασίζεται στην εξέταση γραπτών κειμένων. Χρησιμοποιεί τα προεξετασμένα κείμενα ως βάση για το ποιες πληροφορίες πρέπει να συμπεριλάβει στο κείμενο που παράγεται. Η «στατιστική» μέθοδος καθορίζει αυτόματα το περιεχόμενο βάσει μιας σειράς γενικών στατιστικών. Η «σαφής συλλογιστική» χρησιμοποιεί τεχνητή νοημοσύνη (AI) για να εξετάσει και να φιλτράρει τις πληροφορίες.
Ο γενικός στόχος του προσδιορισμού περιεχομένου είναι να κατανοήσει πώς παράγονται τα έγγραφα ώστε να μπορούν να αναπαραχθούν με χρήση υπολογιστών. Το αποτέλεσμα μιας τέτοιας επιτυχίας θα είναι ένας υπολογιστής ικανός να λαμβάνει δεδομένα, να τα φιλτράρει και να παράγει περιλήψεις των πιο σημαντικών πληροφοριών. Ο υπολογιστής θα βασίσει τέτοια έγγραφα όχι μόνο στις πληροφορίες, αλλά και στους στόχους του κειμένου που παράγεται. Σύμφωνα με τη θεωρία του δωματίου της Κίνας, αυτό μπορεί να σημαίνει ότι ο υπολογιστής είναι σε θέση να κατανοήσει τα δεδομένα αντί να μπορεί να αναπαράγει και να υπολογίζει.