Determinarea conținutului are loc atunci când o persoană, un grup sau un program decide ce informații trebuie incluse sau excluse într-un document sau text. Este legat de conceptele legate de structurarea documentelor. Este, de asemenea, legat de generarea limbajului natural și lingvistica computațională. Fiecare domeniu de studiu folosește determinarea conținutului pentru a examina modul în care sunt alese informațiile.
Când se ia în considerare ce să pună într-un document sau text, compilatorul își va fi efectuat cercetarea sau i se va oferi toate datele disponibile. Determinarea conținutului acoperă modurile în care aceste informații sunt reduse în documentul final. Acest lucru se face prin determinarea care este unghiul sau obiectivul textului și ce informații din text sunt relevante pentru acest lucru.
A doua considerație a determinării conținutului este stilul acestuia. Acest lucru tinde să depindă de natura publicului vizat. Intelectul publicului și familiaritatea cu subiectul va modifica densitatea lexicală și complexitatea informațiilor transmise. Academicienii vor avea tendința de a produce texte mai dense decât revistele de bârfă, de exemplu. Alte considerații includ dimensiunea formatului, indiferent dacă va fi o carte, un articol sau un mesaj text.
Fiecare stare de determinare a conținutului este făcută de un om. Există cercetătorul și scriitorul, care sunt adesea, dar nu întotdeauna, aceeași persoană, și apoi editorul sau editorii. Fiecare nivel are o opinie asupra conținutului relevant pentru obiectivul textului. Lingvistii de calcul si inginerii informatici au cautat modalitati de a reproduce acest sistem folosind programe de calculator in loc sa se bazeze pe oameni.
Există trei tehnici de calcul folosite de calculatoare în ceea ce privește determinarea conținutului. „Tehnica schemei” se bazează pe examinarea textelor scrise. Folosește textele pre-examinate ca bază pentru ce informații să includă în textul produs. Metoda „statistică” determină automat conținutul pe baza unei multitudini de statistici generale. „Raționamentul explicit” folosește inteligența artificială (AI) pentru a examina și filtra informațiile.
Scopul general al determinării conținutului este de a înțelege cum sunt produse documentele, astfel încât să poată fi reproduse folosind computere. Rezultatul unui astfel de succes va fi un computer capabil să primească date, să le filtreze și să producă rezumate ale celor mai importante informații. Calculatorul va baza astfel de documente nu numai pe informații, ci și pe obiectivele textului produs. În sensul teoriei camerei din China, aceasta poate însemna că computerul este capabil să înțeleagă datele, mai degrabă decât să poată replica și calcula.