A regresszió elemzi a változók közötti összefüggéseket
A regresszió olyan adatbányászati technika, amelyet egy adott adatkészletre adott numerikus értékek (más néven folyamatos értékek ) előrejelzésére használnak. Például a regresszió felhasználható egy termék vagy szolgáltatás költségének előrejelzésére, más változók megadása mellett.
A regressziót több iparágban alkalmazzák az üzleti és marketingtervezéshez, a pénzügyi előrejelzéshez, a környezeti modellezéshez és a tendenciák elemzéséhez.
Regresszió Vs. Osztályozás
A regresszió és osztályozás a hasonló problémák megoldására használt adatbányászati technikák, de gyakran zavarosak. Mindkettőt predikciós analízisben használják, de a regressziót numerikus vagy folyamatos értékek megjósolására használják, míg a besorolás az adatokat diszkrét kategóriákba sorolja.
Például a regressziót arra használnák, hogy megjósolja az otthon értékét a helyét, négyzetlábát, az utolsó eladási árat, a hasonló otthonok árát és más tényezőket. A besorolás akkor lenne rendben, ha inkább házakat szervezne kategóriákba, mint például a járható, a tétel nagysága vagy a bűnözés aránya.
A regressziós technikák típusai
A regresszió legegyszerűbb és legrégebbi formája a lineáris regresszió, amelyet két változó kapcsolatának becsléséhez használnak. Ez a technika egy egyenes matematikai képletét használja (y = mx + b). Nyilvánvalóan ez egyszerűen azt jelenti, hogy egy Y és egy X tengellyel rendelkező grafikon alapján az X és Y közötti kapcsolat egyenes vonal, kevés outlierrel. Például azt feltételezhetjük, hogy a népesség növekedése miatt az élelmiszertermelés ugyanolyan ütemben növekedne - ez a két szám közötti erős, lineáris kapcsolatot igényel. Ennek szemléltetéséhez vegye figyelembe azt a gráfot, amelyben az Y tengely a népesség növekedését követi, és az X tengely követi az élelmiszertermelést. Amint az Y érték növekszik, az X érték ugyanakkora sebességgel növekszik, így egyenes vonalat hoz létre közöttük.
A fejlett technikák, például a többszörös regresszió előre jelzik a többváltozó közötti kapcsolatot - például van-e korreláció a jövedelem, az oktatás és az ember között, ahol élni akar? Több változó hozzáadása jelentősen növeli a predikció összetettségét. Többszörös regressziós technikák léteznek, köztük standard, hierarchikus, séta és lépésenként, mindegyik saját alkalmazásával.
Ezen a ponton fontos megérteni azt, amit megpróbálunk megjósolni (az eltartott vagy előre jelzett változót) és az általunk használt adatokat a predikció (független vagy prediktor változók) megadásához. Példánkban azt a helyet szeretnénk előre megjósolni, ahol élni akarunk (az előre jelzett változó) jövedelem és oktatás (mindkettő prediktor változók).
- A normál többszörös regresszió egyidejűleg figyelembe veszi az összes prediktor változót. Például 1) mi a kapcsolat a jövedelem és az oktatás között (prediktorok) és a szomszédság választása (előre jelezve); és 2) milyen mértékben járulnak hozzá az egyes előrejelzők ehhez a kapcsolathoz?
- A lépésenkénti többszörös regresszió teljesen más kérdésre ad választ. Egy lépésenkénti regressziós algoritmus elemzi, melyik prediktorokat legjobban használják a szomszédság kiválasztásának előrejelzésére - azaz a lépésenkénti modell értékeli a prediktor változók fontossági sorrendjét, majd kiválaszt egy megfelelő alcsoportot. Ez a fajta regressziós probléma "lépéseket" használ a regressziós egyenlet kifejlesztéséhez. A regresszió ilyen jellegére való tekintettel, az összes prediktor nem feltétlenül jelenik meg a végső regressziós egyenletben.
- A hierarchikus regresszió , mint a lépésenkénti lépés, egy sorozatos folyamat, de a prediktor változók előre meghatározott módon meghatározott értékre kerülnek a modellbe, vagyis az algoritmus nem tartalmaz beépített egyenletkészletet annak meghatározására, hogy mely sorrendben írja be a prediktorokat. Ezt leggyakrabban használják, ha a regressziós egyenletet létrehozó egyén a terület szakismerete.
- A Setwise regresszió ugyancsak hasonlít a lépésenkénti, de elemzi a változókészleteket, nem pedig az egyes változókat.