Corpus lingvistic studiul limbajului folosind exemple din viața reală. Nu este o ramură a lingvisticii ci o metodologie sau abordare. Corpus, cuvântul latin pentru „corp”, se referă la corpul de texte naturale, iar abordarea implică descoperirea tiparelor de utilizare a limbajului prin analiza corpusului. Lingvistica corpusului se confruntă cu o revenire, deoarece programele de calculator au revoluționat abordarea.
Jurnalele parentale ale vorbirii unui copil pe măsură ce acesta dobândește limba este un exemplu simplu de corpus care poate fi apoi studiat pentru a învăța modele de limbaj. Predarea limbilor străine în prima jumătate a secolului al XX-lea folosea adesea corpuri ale limbii țintă pentru a compila liste de vocabular pentru studenți. Eminentul lingvist Noam Chomsky nu a considerat utilizarea corpurilor un instrument valid, deoarece credea că competența lingvistică este mai importantă decât datele de performanță. Lingvistica corpusului timpuriu s-a bazat în mare parte pe presupunerea că există un număr limitat de propoziții într-o limbă naturală și că acele propoziții pot fi colectate și evaluate.
După ce a căzut în disgrație în anii ’60 și ’70, lingvistica corpusului se confruntă cu o revigorare datorită utilizării metodologice a computerului. Programul de concordanță este numele software-ului cel mai des folosit de lingviști. În timp ce căutarea tiparelor într-un corpus de milioane de cuvinte ar dura prea mult timp pentru o ființă umană, iar rezultatele ar fi mai puțin precise, un computer poate căuta și prelua informații în doar câteva secunde. Poate calcula frecvența, sorta datele și poate exploata corpuri în moduri care erau imposibile în trecut.
Analiza bazată pe corpus poate analiza modul în care registrul afectează limba; modele de utilizare a limbajului, cum ar fi modul în care bărbații și femeile folosesc în mod diferit întrebările etichete; măsura în care sunt utilizate modelele de limbaj; și factorii care afectează variabilitatea utilizării limbajului. Predarea poate beneficia de lingvistica corpus în conceperea programei, dezvoltarea materialelor utilizate și tipul de activități utilizate în clasă. Elevii ar putea beneficia de pe urma abordării fiind capabili să determine mai clar diferitele utilizări și semnificații ale cuvintelor comune, diferențele inerente în limbajul scris și vorbit, precum și expresiile și alocațiile pe care le-ar putea folosi. Corpul de date care este corpus este actualizat constant și este produsul interacțiunilor sociale din viața reală. Astfel, corpurile sunt date naturaliste care pot fi ușor accesate, iar constatările pot fi generalizate.