A besorolás egy olyan adatbányászati technika, amely kategóriákat rendel az adatgyűjteményhez a pontosabb előrejelzések és elemzések támogatása érdekében. Úgynevezett döntési fa néven is nevezik, a besorolás egyike azon módszereknek, amelyek a nagyon nagy adatkészletek elemzését eredményezik.
Miért osztályozható?
Nagyon nagy adatbázisok válnak a normák közé a mai nagyvilágban. Képzeljen el egy több terabájtos adatbázist, a terabájt egy billió bájtnyi adat.
A Facebook önmagában 600 terabájtnyi új adatot dörömmöl minden nap (2014-től, amikor utoljára jelentette ezeket a specifikációkat). A nagy adatok elsődleges kihívása az, hogy hogyan lehet értelmezni.
A puszta hangerő azonban nem az egyetlen probléma: a nagy adatok változatosak, strukturálatlanok és gyorsan változóak. Figyelembe kell venni az audio- és videoadatokat, a közösségi médiafájlokat, a 3D-s adatokat vagy a térinformatikai adatokat. Ezeket az adatokat nem könnyű kategorizálni vagy szervezni.
Ennek a kihívásnak való megfelelés érdekében számos hasznos módszert hoztak létre a hasznos információk kivonására, ezek közül az osztályozás .
A klasszifikáció működése
Annak veszélye, hogy túl messzire elmennek a tech-beszédben, beszéljünk arról, hogyan működik az osztályozás. A cél az, hogy hozzon létre egy olyan osztályozási szabályokat, amelyek megválaszolják a kérdést, döntést hozhatnak vagy megjósolhatják a viselkedést. Kezdetben olyan képzési adatok állnak rendelkezésre, amelyek bizonyos attribútumokat tartalmaznak, valamint a valószínű kimenetelét.
Az osztályozási algoritmus feladata, hogy felfedezze, hogy az attribútumok halmaza eléri a következtetését.
Szcenárió : Talán egy hitelkártya-társaság igyekszik meghatározni, hogy melyik kilátónak kell hitelkártya-ajánlatot kapnia.
Ez lehet a képzési adatokészlete:
Név | Kor | nem | Éves jövedelem | Hitelkártya ajánlat |
---|---|---|---|---|
gipsz Jakab | 25 | M | $ 39,500 | Nem |
Jane Doe | 56 | F | 125.000 $ | Igen |
A "prediktor" oszlopok A kor , a nem és az éves bevétel határozza meg a "prediktor attribútum" hitelkártya-ajánlat értékét. Egy edzéskészletben a prediktor attribútum ismert. Az osztályozási algoritmus aztán megpróbálja megállapítani, hogy a prediktor attribútum értékét hogyan érte el: milyen viszonyok vannak a prediktorok és a döntés között? Készít egy előrejelzési szabálykészletet, általában egy IF / THEN nyilatkozatot, például:
IF (kor> 18 VAGY Kor <75) ÉS Éves jövedelme> 40 000 THEN hitelkártya ajánlat = igen
Nyilvánvaló, hogy ez egy egyszerű példa, és az algoritmus sokkal nagyobb adatmintavételre lenne szüksége, mint az itt bemutatott két rekord. Továbbá, a becslési szabályok valószínűleg sokkal összetettebbek lesznek, ideértve az attribútum részleteinek rögzítésére szolgáló alszabályokat is.
Ezután az algoritmus az elemzésre kerülő adatok "előrejelző készletét" kapja, de ehhez hiányzik a predikciós attribútum (vagy döntés):
Név | Kor | nem | Éves jövedelem | Hitelkártya ajánlat |
---|---|---|---|---|
Jack Frost | 42 | M | $ 88.000 | |
Mary Murray | 16 | F | $ 0 |
Ez a prediktoradatok segítenek megbecsülni a becslési szabályok pontosságát, és a szabályokat mindaddig módosítják, amíg a fejlesztő a jóslatokat hatékony és hasznosnak nem tekinti.
Napi-napi példák a klasszifikációra
A klasszifikáció és más adatbányászati technikák a napi tapasztalataink mögött a fogyasztók.
Az időjárási előrejelzések felhasználhatják a besorolást, jelezve, hogy a nap esős, napos vagy felhős lesz. Az orvosi szakma elemezheti az egészségügyi állapotokat az orvosi eredmények megjóslásához. A Naive Bayesian típusú osztályozási módszer, feltételes valószínűséget használ a spam e-mailek kategorizálására. A csalások felderítése és a termékajánlatok között a színfalak mögött minden nap adatelemzést és előrejelzést készítenek.