Regresia liniară simplă se aplică statisticilor și ajută la descrierea datelor (x,y) care par să aibă o relație liniară, permițând o anumită predicție a lui y dacă x este cunoscut. Aceste date sunt adesea reprezentate pe diagrame de dispersie, iar formula pentru regresia liniară creează o linie care se potrivește cel mai bine tuturor punctelor, cu condiția ca acestea să aibă cu adevărat o corelație liniară. Nu se va potrivi exact toate punctele, dar ar trebui să fie o linie în care suma pătratelor diferenței dintre datele reale și datele așteptate (reziduuri) creează cel mai mic număr, care este adesea numit linia celor mai mici pătrate sau linia de cel mai potrivit. Ecuația dreptei pentru datele eșantionului și datele populației sunt următoarele: y = b0 + b1x și Y = B0 + B1x.
Oricine este familiarizat cu algebra poate observa asemănarea acestei linii cu y = mx + b și, de fapt, cele două sunt relativ identice, cu excepția faptului că cei doi termeni din partea dreaptă a ecuației sunt comutați, astfel încât B1 este egal cu panta sau m. Motivul pentru această rearanjare este că atunci devine elegant ușor să adăugați termeni suplimentari cu caracteristici precum exponenți care ar putea descrie diferite forme neliniare de relație.
Formulele pentru obținerea unei linii de regresie liniară simplă sunt relativ complexe și greoaie, iar majoritatea oamenilor nu petrec mult timp notându-le, deoarece durează mult timp pentru a le finaliza. În schimb, diverse programe, cum ar fi pentru Excel sau pentru multe tipuri de calculatoare științifice, pot calcula cu ușurință o linie a celor mai mici pătrate. Linia este adecvată pentru predicție numai dacă există dovezi clare ale unei corelații puternice între seturile de date (x,y). Un calculator va genera o linie, indiferent dacă are sens să o folosești.
În același timp, este generată o ecuație simplă de regresie liniară, oamenii trebuie să se uite la nivelul de corelație. Aceasta înseamnă evaluarea r, coeficientul de corelație, în raport cu un tabel de valori pentru a determina dacă există o corelație liniară. În plus, evaluarea datelor prin reprezentarea lor ca grafic de dispersie este o modalitate bună de a obține o idee dacă datele au o relație liniară.
Ceea ce se poate face apoi cu o dreaptă de regresie liniară simplă, cu condiția ca aceasta să aibă o corelație liniară, este ca valorile să poată fi înlocuite în x, pentru a obține o valoare prezisă pentru y. Această predicție are limitele ei. Datele prezente, în special dacă sunt doar o probă, pot avea o corelație liniară acum, dar s-ar putea să nu mai târziu cu material de probă suplimentar adăugat.
Alternativ, un întreg eșantion poate împărtăși o corelație în timp ce o întreagă populație nu. Predicția este, prin urmare, limitată și depășirea multor valorile datelor disponibile se numește extrapolare și nu este încurajată. Mai mult, dacă oamenii știe că, dacă nu există o corelație liniară, cea mai bună estimare a lui x este media tuturor datelor y.
În esență, regresia liniară simplă este un instrument statistic util care poate fi folosit, cu discreție, pentru a prezice valorile y pe baza valorii ax. Este aproape întotdeauna predat cu ideea de corelație liniară, deoarece determinarea utilității unei linii de regresie necesită analiza lui r. Din fericire, cu multe programe tehnice moderne, oamenii pot reprezenta grafice scatterplots, pot adăuga linii de regresie și pot determina coeficientul de corelație r cu câteva intrări.