Az adatbányászat osztályozása

A besorolás egy olyan adatbányászati ​​technika, amely kategóriákat rendel az adatgyűjteményhez a pontosabb előrejelzések és elemzések támogatása érdekében. Úgynevezett döntési fa néven is nevezik, a besorolás egyike azon módszereknek, amelyek a nagyon nagy adatkészletek elemzését eredményezik.

Miért osztályozható?

Nagyon nagy adatbázisok válnak a normák közé a mai nagyvilágban. Képzeljen el egy több terabájtos adatbázist, a terabájt egy billió bájtnyi adat.

A Facebook önmagában 600 terabájtnyi új adatot dörömmöl minden nap (2014-től, amikor utoljára jelentette ezeket a specifikációkat). A nagy adatok elsődleges kihívása az, hogy hogyan lehet értelmezni.

A puszta hangerő azonban nem az egyetlen probléma: a nagy adatok változatosak, strukturálatlanok és gyorsan változóak. Figyelembe kell venni az audio- és videoadatokat, a közösségi médiafájlokat, a 3D-s adatokat vagy a térinformatikai adatokat. Ezeket az adatokat nem könnyű kategorizálni vagy szervezni.

Ennek a kihívásnak való megfelelés érdekében számos hasznos módszert hoztak létre a hasznos információk kivonására, ezek közül az osztályozás .

A klasszifikáció működése

Annak veszélye, hogy túl messzire elmennek a tech-beszédben, beszéljünk arról, hogyan működik az osztályozás. A cél az, hogy hozzon létre egy olyan osztályozási szabályokat, amelyek megválaszolják a kérdést, döntést hozhatnak vagy megjósolhatják a viselkedést. Kezdetben olyan képzési adatok állnak rendelkezésre, amelyek bizonyos attribútumokat tartalmaznak, valamint a valószínű kimenetelét.

Az osztályozási algoritmus feladata, hogy felfedezze, hogy az attribútumok halmaza eléri a következtetését.

Szcenárió : Talán egy hitelkártya-társaság igyekszik meghatározni, hogy melyik kilátónak kell hitelkártya-ajánlatot kapnia.

Ez lehet a képzési adatokészlete:

Képzési adatok
Név Kor nem Éves jövedelem Hitelkártya ajánlat
gipsz Jakab 25 M $ 39,500 Nem
Jane Doe 56 F 125.000 $ Igen

A "prediktor" oszlopok A kor , a nem és az éves bevétel határozza meg a "prediktor attribútum" hitelkártya-ajánlat értékét. Egy edzéskészletben a prediktor attribútum ismert. Az osztályozási algoritmus aztán megpróbálja megállapítani, hogy a prediktor attribútum értékét hogyan érte el: milyen viszonyok vannak a prediktorok és a döntés között? Készít egy előrejelzési szabálykészletet, általában egy IF / THEN nyilatkozatot, például:

IF (kor> 18 VAGY Kor <75) ÉS Éves jövedelme> 40 000 THEN hitelkártya ajánlat = igen

Nyilvánvaló, hogy ez egy egyszerű példa, és az algoritmus sokkal nagyobb adatmintavételre lenne szüksége, mint az itt bemutatott két rekord. Továbbá, a becslési szabályok valószínűleg sokkal összetettebbek lesznek, ideértve az attribútum részleteinek rögzítésére szolgáló alszabályokat is.

Ezután az algoritmus az elemzésre kerülő adatok "előrejelző készletét" kapja, de ehhez hiányzik a predikciós attribútum (vagy döntés):

Prediktoradatok
Név Kor nem Éves jövedelem Hitelkártya ajánlat
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Ez a prediktoradatok segítenek megbecsülni a becslési szabályok pontosságát, és a szabályokat mindaddig módosítják, amíg a fejlesztő a jóslatokat hatékony és hasznosnak nem tekinti.

Napi-napi példák a klasszifikációra

A klasszifikáció és más adatbányászati ​​technikák a napi tapasztalataink mögött a fogyasztók.

Az időjárási előrejelzések felhasználhatják a besorolást, jelezve, hogy a nap esős, napos vagy felhős lesz. Az orvosi szakma elemezheti az egészségügyi állapotokat az orvosi eredmények megjóslásához. A Naive Bayesian típusú osztályozási módszer, feltételes valószínűséget használ a spam e-mailek kategorizálására. A csalások felderítése és a termékajánlatok között a színfalak mögött minden nap adatelemzést és előrejelzést készítenek.