Mi a k-eszköz a klaszterezés?

Adatbányászat a k-eszköz algoritmussal

A k- eszköz klaszterezési algoritmus egy adatbányászat és gépi tanulási eszköz, amelyet a megfigyelések csoportosítására használnak a kapcsolódó megfigyelések csoportjaihoz, anélkül, hogy ismereteket szereztek volna ezekről a kapcsolatokról. Mintavételezéssel az algoritmus megpróbálja megmutatni, melyik kategóriába vagy klaszterbe tartoznak az adatok, és a k csoportok számát a k érték határozza meg .

A k- eszköz-algoritmus az egyik legegyszerűbb klaszterezési technika, és gyakran használják orvosi képalkotás, biometria és kapcsolódó területeken. A k- típusú klaszterezés előnye, hogy az adatokról (felügyelet nélküli formájáról) szól, nem pedig arra, hogy az algoritmust az algoritmus felügyelt formájának használatával utasítsa el.

Ezt néha Lloyd's algoritmusaként említik, különösen a számítástechnikai körökben, mivel a szabványos algoritmust először 1957-ben Stuart Lloyd javasolta. A "k-eszköz" kifejezést James McQueen 1967-ben kitalálták.

A k-algoritmus függvények leírása

A k- eszköz-algoritmus olyan evolúciós algoritmus, amely a működési módjától kapja a nevét. Az algoritmus csoportokat csoportosítja k csoportba, ahol k egy bemeneti paraméter. Ezután minden megfigyelést klaszterekhez hozzárendel a megfigyelés közelségében a klaszter átlagához viszonyítva. A klaszter átlagát ezután újraszámítjuk, és a folyamat újra elindul. Így működik az algoritmus:

  1. Az algoritmus önkényesen kiválasztja a k pontokat, mint a kezdeti klaszterközpontokat (az eszközt).
  2. Az adatkészlet egyes pontjai a zárt klaszterhez vannak hozzárendelve az egyes pontok és az egyes klaszterközpontok közötti euklideszi távolság alapján.
  3. Minden egyes klaszterközpont újracsomagolja az adott klaszter pontjai átlagaként.
  4. A 2. és a 3. lépést addig ismételjük, amíg a klaszterek nem konvergálnak. A konvergencia a végrehajtástól függően másképpen definiálható, de általában azt jelenti, hogy sem a megfigyelések nem változtatják meg a klasztereket, ha a 2. és 3. lépést megismétlik, vagy hogy a változások nem teszik lényeges különbséget a klaszterek definíciójában.

A klaszterek számának kiválasztása

A klaszterezés egyik legfőbb hátránya az, hogy a klaszterek számát kell megadni az algoritmus bemenetként. A tervezett módon az algoritmus nem képes meghatározni a megfelelő számú klasztert, és a felhasználótól függ, hogy ezt előre meg tudja határozni.

Például, ha olyan embercsoport lenne, amelyet a bináris nemi identitás alapján csoportosítani kell, mint férfi vagy nő, akkor a k- eszköz algoritmust a k = 3 bemenetet használva az embereket három csoportra kényszerítenék, ha csak kettő vagy egy a k = 2 beadása, természetesbb illeszkedést eredményezne.

Hasonlóképpen, ha az egyének egy csoportja könnyedén csoportosítható az otthoni állapot alapján, és a k- eszköz algoritmust a k = 20 bemenettel hívta , az eredmények túlságosan általánosak lehetnek, hogy hatékonyak legyenek.

Ezért gyakran érdemes k különböző értékekkel kísérletezni az adatoknak legjobban illő érték azonosításához. Azt is szeretné felfedezni más adatbányászati ​​algoritmusok használatát a gép által megtanult tudás terén.