Co to jest prosta regresja liniowa?

Prosta regresja liniowa ma zastosowanie do statystyki i pomaga opisać (x,y) dane, które wydają się mieć liniową zależność, pozwalając na pewne przewidywanie y, jeśli x jest znane. Dane te są często wykreślane na wykresach rozrzutu, a wzór na regresję liniową tworzy linię, która najlepiej pasuje do wszystkich punktów, pod warunkiem, że rzeczywiście mają one korelację liniową. Nie będzie pasować dokładnie do wszystkich punktów, ale powinna to być linia, w której suma kwadratów różnicy między danymi rzeczywistymi a danymi oczekiwanymi (resztami) tworzy najniższą liczbę, która często nazywana jest linią najmniejszych kwadratów lub linią najlepiej dopasowana. Równanie linii dla danych próbki i danych populacji jest następujące: y = b0 + b1x i Y = B0 + B1x.

Każdy, kto zna się na algebrze, może zauważyć podobieństwo tej prostej do y = mx + b iw rzeczywistości oba są względnie identyczne, z wyjątkiem tego, że dwa wyrazy po prawej stronie równania są zamienione tak, że B1 równa się nachyleniu lub m. Powodem tego przegrupowania jest to, że dodanie dodatkowych terminów o cechach, takich jak wykładniki, które mogą opisywać różne nieliniowe formy relacji, staje się elegancko łatwe.

Wzory na uzyskanie prostej linii regresji liniowej są stosunkowo złożone i kłopotliwe, a większość ludzi nie spędza dużo czasu na ich zapisaniu, ponieważ ich ukończenie zajmuje dużo czasu. Zamiast tego różne programy, takie jak Excel lub wiele typów kalkulatorów naukowych, mogą łatwo obliczyć linię najmniejszych kwadratów. Linia jest odpowiednia do predykcji tylko wtedy, gdy istnieje wyraźny dowód silnej korelacji między zestawami danych (x,y). Kalkulator wygeneruje linię, niezależnie od tego, czy ma to sens.

W tym samym czasie generowane jest proste równanie liniowej regresji, ludzie muszą patrzeć na poziom korelacji. Oznacza to ocenę r, współczynnika korelacji, w odniesieniu do tabeli wartości, aby określić, czy istnieje korelacja liniowa. Ponadto ocena danych przez wykreślenie ich jako wykresu rozrzutu jest dobrym sposobem na określenie, czy dane mają relację liniową.

To, co można wtedy zrobić za pomocą prostej linii regresji liniowej, pod warunkiem, że ma ona korelację liniową, to podstawić wartości do x, aby uzyskać przewidywaną wartość dla y. Ta przepowiednia ma swoje granice. Obecne dane, szczególnie jeśli jest to tylko próbka, mogą teraz mieć liniową korelację, ale może nie później po dodaniu dodatkowego materiału próbki.

Alternatywnie, cała próbka może mieć korelację, podczas gdy cała populacja nie. Przewidywanie jest zatem ograniczone, a wychodzenie daleko poza dostępne wartości danych nazywa się ekstrapolacją i nie jest zalecane. Co więcej, jeśli ludzie wiedzą, że jeśli nie istnieje korelacja liniowa, najlepszym oszacowaniem x jest średnia wszystkich danych y.

Zasadniczo prosta regresja liniowa jest użytecznym narzędziem statystycznym, które może być używane do przewidywania wartości y na podstawie wartości ax. Niemal zawsze naucza się go z ideą korelacji liniowej, ponieważ określenie użyteczności linii regresji wymaga analizy r. Na szczęście w przypadku wielu nowoczesnych programów technicznych ludzie mogą tworzyć wykresy rozrzutu, dodawać linie regresji i określać współczynnik korelacji r za pomocą kilku wpisów.

Czym jest relacja liniowa?

Co to jest architektura hurtowni danych?

Co to są statystyki biznesowe?

Co to jest klastrowanie korelacji?