A regressziós statisztikai modell meghatározása

A regresszió elemzi a változók közötti összefüggéseket

A regresszió olyan adatbányászati ​​technika, amelyet egy adott adatkészletre adott numerikus értékek (más néven folyamatos értékek ) előrejelzésére használnak. Például a regresszió felhasználható egy termék vagy szolgáltatás költségének előrejelzésére, más változók megadása mellett.

A regressziót több iparágban alkalmazzák az üzleti és marketingtervezéshez, a pénzügyi előrejelzéshez, a környezeti modellezéshez és a tendenciák elemzéséhez.

Regresszió Vs. Osztályozás

A regresszió és osztályozás a hasonló problémák megoldására használt adatbányászati ​​technikák, de gyakran zavarosak. Mindkettőt predikciós analízisben használják, de a regressziót numerikus vagy folyamatos értékek megjósolására használják, míg a besorolás az adatokat diszkrét kategóriákba sorolja.

Például a regressziót arra használnák, hogy megjósolja az otthon értékét a helyét, négyzetlábát, az utolsó eladási árat, a hasonló otthonok árát és más tényezőket. A besorolás akkor lenne rendben, ha inkább házakat szervezne kategóriákba, mint például a járható, a tétel nagysága vagy a bűnözés aránya.

A regressziós technikák típusai

A regresszió legegyszerűbb és legrégebbi formája a lineáris regresszió, amelyet két változó kapcsolatának becsléséhez használnak. Ez a technika egy egyenes matematikai képletét használja (y = mx + b). Nyilvánvalóan ez egyszerűen azt jelenti, hogy egy Y és egy X tengellyel rendelkező grafikon alapján az X és Y közötti kapcsolat egyenes vonal, kevés outlierrel. Például azt feltételezhetjük, hogy a népesség növekedése miatt az élelmiszertermelés ugyanolyan ütemben növekedne - ez a két szám közötti erős, lineáris kapcsolatot igényel. Ennek szemléltetéséhez vegye figyelembe azt a gráfot, amelyben az Y tengely a népesség növekedését követi, és az X tengely követi az élelmiszertermelést. Amint az Y érték növekszik, az X érték ugyanakkora sebességgel növekszik, így egyenes vonalat hoz létre közöttük.

A fejlett technikák, például a többszörös regresszió előre jelzik a többváltozó közötti kapcsolatot - például van-e korreláció a jövedelem, az oktatás és az ember között, ahol élni akar? Több változó hozzáadása jelentősen növeli a predikció összetettségét. Többszörös regressziós technikák léteznek, köztük standard, hierarchikus, séta és lépésenként, mindegyik saját alkalmazásával.

Ezen a ponton fontos megérteni azt, amit megpróbálunk megjósolni (az eltartott vagy előre jelzett változót) és az általunk használt adatokat a predikció (független vagy prediktor változók) megadásához. Példánkban azt a helyet szeretnénk előre megjósolni, ahol élni akarunk (az előre jelzett változó) jövedelem és oktatás (mindkettő prediktor változók).