logo

Gini indeksas mašininiame mokyme

Įvadas

Mašinų mokymasis pakeitė duomenų apdorojimo ir tyrimo būdą, o sprendimų medžio algoritmai yra garsus sprendimas atliekant klasifikavimo ir regresijos užduotis. Gini indeksas, kitaip vadinamas Gini priemaiša arba Gini koeficientu, yra reikšmingas priemaišų matas, naudojamas sprendimų medžio algoritmuose. Šiame straipsnyje mes išsamiai išnagrinėsime Gini indekso idėją, jo skaitinę formulę ir pritaikymą mašininiam mokymuisi. Taip pat palyginsime Gini indeksą ir kitas priemaišų priemones, kalbėsime apie jo apribojimus ir pranašumus bei patikrinsime kontekstinę jo realių programų analizę. Pagaliau čia pateiksime būsimus guolius tyrimams.

Kas yra Gini indeksas?

Gini indeksas yra priemaišų arba nelygybės dalis statistiniuose ir piniginiuose nustatymuose. Mašininio mokymosi metu jis naudojamas kaip priemaišų matas sprendimų medžio algoritmuose atliekant klasifikavimo užduotis. Gini indeksas matuoja tikimybę, kad atsitiktinai pasirinktas testas bus klaidingai klasifikuojamas pagal sprendimų medžio algoritmą, o jo reikšmė svyruoja nuo 0 (visiškai grynas) iki 1 (visiškai nešvarus).

Gini indekso formulė

Gini indeksas yra cirkuliacijos priemaišos arba nelygybės dalis, reguliariai naudojama kaip priemaišų matas sprendimų medžio algoritmuose. Kalbant apie sprendimų medžius, Gini indeksas naudojamas siekiant nustatyti geriausią duomenų skaidymo kiekviename medžio mazge savybę.

Gini indekso formulė yra tokia:

Gini indeksas mašininiame mokyme

kur pi yra tikimybė, kad daiktas turės vietą su konkrečia klase.

Pavyzdžiui, turėtume apsvarstyti dvejetainio klasifikavimo problemą su dviem klasėmis An ir B. Jei tikimybė, kad An klasės tikimybė yra p, o B klasės tikimybė yra (1-p), Gini indeksą galima apskaičiuoti kaip :

Gini indekso reikšmė svyruoja nuo 0,0 iki 0,5 dvejetainio klasifikavimo problemoms, kur 0,0 rodo visiškai gryną mazgą (visi pavyzdžiai turi panašios klasės vietą), o 0,5 rodo visiškai nešvarų mazgą (testai yra vienodai paskirstyti abiejose klasėse ).

Gini indekso naudojimas klasifikavimo problemose

Gini indeksas paprastai naudojamas kaip priemaišų matas klasifikavimo problemų sprendimų medžio algoritmuose. Sprendimų medžiuose kiekvienas mazgas kreipiasi į elementą, o tikslas yra padalyti duomenis į pogrupius, kurie iš esmės yra tokie gryni, kaip ir galima tikėtis. Priemaišų matas (pvz., Gini indeksas) naudojamas nustatant geriausią padalijimą kiekviename mazge.

Norėdami tai iliustruoti, turėtume apsvarstyti dvejetainės klasifikacijos problemos sprendimų medžio pavyzdį. Medis turi du elementus: amžių ir pajamas, o tikslas yra numatyti, ar asmuo tikriausiai ketina įsigyti prekę. Medis pastatytas naudojant Gini indeksą kaip priemaišų matą.

Šakniniame mazge Gini indeksas apskaičiuojamas atsižvelgiant į tikimybę, kad pavyzdžiai turės vietą su 0 arba 1 klase. Mazgas yra padalintas atsižvelgiant į komponentą, dėl kurio Gini indeksas mažėja labiausiai. Šis ciklas rekursyviai keičiamas kiekvienam poaibiui, kol pasiekiama stabdymo priemonė.

Sprendimų medžiai

Sprendimų medis yra gerai žinomas mašininio mokymosi algoritmas, naudojamas tiek klasifikavimo, tiek regresijos užduotims atlikti. Modelis sukurtas rekursyviai padalijant duomenų rinkinį į kuklesnius poaibius, atsižvelgiant į svarbiausių informacijos reikšmes, siekiant apriboti tolesnių poaibiu priemaišas.

Kiekviename medžio mazge priimamas sprendimas, atsižvelgiant į vienos iš svarbiausių informacijos reikšmes, siekiant galutinio tikslo, kad tolesni poaibiai iš esmės būtų tokie gryni, kokio iš tikrųjų galima tikėtis. Pogrupio grynumas reguliariai įvertinamas pagal priemaišų matą, pavyzdžiui, Gini indeksą arba entropiją.

Sprendimų medžio algoritmas gali būti naudojamas dvejetainėms ir kelių klasių klasifikavimo užduotims, taip pat regresijos užduotims atlikti. Atliekant dvejetainės klasifikacijos užduotis, sprendimų medis padalija duomenų rinkinį į du pogrupius, atsižvelgdamas į dvejetainės funkcijos reikšmę, pvz., taip arba ne. Atliekant kelių klasių klasifikavimo užduotis, sprendimų medis padalija duomenų rinkinį į daugybę pogrupių, atsižvelgdamas į tiesioginės funkcijos reikšmes, pvz., raudoną, žalią arba mėlyną.

Gini indeksas ir kitos priemaišų priemonės

Be Gini indekso, yra ir kitų priemaišų priemonių, kurios paprastai naudojamos sprendimų medžio algoritmuose, pavyzdžiui, entropija ir informacijos gavimas.

Entropija:

Mašininiame mokyme entropija yra duomenų krūvos netaisyklingumo ar pažeidžiamumo dalis. Jis paprastai naudojamas kaip priemaišų matas sprendimų medžio algoritmuose kartu su Gini indeksu.

Sprendimų medžio algoritmuose entropija naudojama siekiant nustatyti geriausią komponentą, pagal kurį būtų galima padalyti duomenis kiekviename medžio mazge. Tikslas yra rasti elementą, kuris sukelia didžiausią entropijos sumažėjimą, kuris yra susijęs su komponentu, kuris suteikia daugiausia informacijos apie klasifikavimo problemą.

Gini indeksas mašininiame mokyme

Nors entropija ir Gini indeksas paprastai naudojami kaip priemaišų matai sprendimų medžio algoritmuose, jie turi įvairių savybių. Entropija yra jautresnė klasių pavadinimų cirkuliacijai ir paprastai pateiks labiau pritaikytus medžius, o Gini indeksas yra mažiau jautrus klasių ženklų pasisavinimui ir apskritai sukurs ribotesnius medžius su mažiau skilimų. Sprendimas dėl priemaišos priemonės priklauso nuo konkrečios problemos ir duomenų atributų.

Informacijos gavimas:

Informacijos gavimas yra veiksmas, naudojamas siekiant įvertinti padalijimo pobūdį kuriant sprendimų medį. Sprendimų medžio tikslas yra padalyti duomenis į poaibius, kurie iš esmės yra tokie pat homogeniški, kaip ir objektyvaus kintamojo atveju, kad būtų galima panaudoti tolesnį medį, kad būtų galima tiksliai tikėtis naujų duomenų. Informacijos padidėjimas matuoja entropijos arba priemaišų sumažėjimą, pasiektą padalijimo metu. Ypatybė, turinti daugiausia dėmesio informacijos, pasirenkama kaip geriausia savybė, kurią galima padalyti kiekviename sprendimų medžio mazge.

Informacijos gavimas yra įprasta priemonė vertinant sprendimų medžių skilimų pobūdį, tačiau ne į jį reikia sutelkti dėmesį. Taip pat gali būti naudojamos įvairios priemonės, pavyzdžiui, Gini indeksas arba klaidingo klasifikavimo rodiklis. Sprendimas dėl padalijimo pagrindo priklauso nuo pagrindinės problemos ir naudojamo duomenų rinkinio atributų.

Gini indekso pavyzdys

Turėtume apsvarstyti dvejetainio klasifikavimo problemą, kai turime 10 pavyzdžių duomenų rinkinį su dviem klasėmis: „Teigiamas“ ir „Neigiamas“. Iš 10 pavyzdžių 6 turi vietą „teigiamų“ klasėje, o 4 – „neigiamų“ klasę.

Norėdami apskaičiuoti duomenų rinkinio Gini indeksą, iš pradžių apskaičiuojame kiekvienos klasės tikimybę:

p_1 = 6/10 = 0,6 (teigiamas)

p_2 = 4/10 = 0,4 (neigiamas)

Tada mes naudojame Gini indekso formulę duomenų rinkinio priemaišoms apskaičiuoti:

Džini (S) = 1 – (p_1^2 + p_2^2)

= 1 – (0,6^2 + 0,4^2)

= 0,48

Taigi duomenų rinkinio Gini indeksas yra 0,48.

Šiuo metu tarkime, kad turime padalinti duomenų rinkinį į elementą „X“, kuris turi dvi galimas reikšmes: „A“ ir „B“. Atsižvelgiant į komponentą, duomenų rinkinį padalijome į du pogrupius:

1 poaibis (X = A): 4 teigiamas, 1 neigiamas

2 poaibis (X = B): 2 teigiamas, 3 neigiamas

Norėdami apskaičiuoti šio padalijimo Gini indekso sumažėjimą, iš pradžių apskaičiuojame kiekvieno pogrupio Gini indeksą:

Džini (S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Džini (S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Tada mes naudojame informacijos padidėjimo formulę Gini indekso sumažėjimui apskaičiuoti:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 – ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Taigi, informacijos padidėjimas (t. y. Gini indekso sumažėjimas), padalijus duomenų rinkinį paryškintoje vietoje „X“, yra 0,08.

Esant tokiai situacijai, jei apskaičiuotume visų elementų informacijos padidėjimą ir pasirinktume tą, kurio informacijos padidėjimas yra labiausiai pastebimas, šis komponentas būtų pasirinktas kaip geriausias komponentas, kurį būtų galima padalyti sprendimų medžio šakniniame mazge.

Privalumai:

Gini indeksas yra plačiai taikoma priemonė, skirta vertinti sprendimų medžių skilimų pobūdį, ir jis turi keletą pranašumų prieš įvairius rodiklius, pavyzdžiui, entropiją ar klaidingo klasifikavimo rodiklį. Štai dalis pagrindinių Gini indekso naudojimo pranašumų:

Neena Gupta

Skaičiavimo požiūriu efektyvus: Gini indeksas yra ne toks sudėtingas ir skaičiavimo požiūriu greitesnis matas, priešinamas įvairiems matams, pavyzdžiui, entropijai, kuri apima logaritmų skaičiavimą.

Intuityvus aiškinimas: Gini indeksas yra paprastas ir interpretuojamas. Jis matuoja tikimybę, kad atsitiktinai pasirinktas pavyzdys iš rinkinio bus neteisingai klasifikuojamas tuo atveju, jei jis būtų atsitiktinai pažymėtas pagal klasę.

Tinka dvejetainei klasifikacijai: Gini indeksas yra ypač galingas dvejetainio klasifikavimo problemoms spręsti, kai objektyvus kintamasis turi tik dvi klases. Tokiais atvejais Gini indeksas yra pastovesnis nei kiti rodikliai.

Tvirtas klasės disbalansas: Gini indeksas yra mažiau jautrus klasių disbalansui, palyginti su skirtingais rodikliais, pavyzdžiui, tikslumu ar klaidingo klasifikavimo rodikliu. Taip yra dėl to, kad Gini indeksas priklauso nuo bendro kiekvienos klasės pavyzdžių apimties, o ne nuo tiesioginių skaičių.

Mažiau linkę permontuoti: Gini indeksas paprastai sudarys kuklesnius sprendimų medžius, kontrastuojančius su skirtingais matmenimis, todėl jis yra mažiau linkęs per daug pritaikyti. Taip yra dėl to, kad Gini indeksas apskritai bus palankesnis funkcijoms, kurios daro kuklesnius duomenų paketus, o tai sumažina perteklinio pritaikymo galimybes.

Trūkumai:

Nors Gini indeksas turi keletą privalumų kaip sprendimų medžių skaidymo priemonė, jis taip pat turi keletą trūkumų. Štai dalis pagrindinių Gini indekso naudojimo trūkumų:

Polinkis į funkcijas su daugybe kategorijų: Gini indeksas paprastai bus nukreiptas į funkcijas, turinčias daug kategorijų ar reikšmių, nes jos gali padaryti daugiau duomenų skaidymų ir dalių. Tai gali paskatinti permontavimą ir sudėtingesnį sprendimų medį.

Netinka nuolatiniams kintamiesiems: Gini indeksas netinka nuolatiniams kintamiesiems, nes jį reikia suskirstyti į kategorijas arba dėžes, todėl gali būti prarasta informacija ir sumažėjęs tikslumas.

Nepaisoma funkcijų sąveikos: Gini indeksas tik galvoja apie individualią kiekvienos funkcijos nuspėjimo jėgą ir nepaiso savybių sąveikos. Tai gali paskatinti prastus padalijimus ir ne tokias tikslias prognozes.

Netinka kai kuriems duomenų rinkiniams: kartais Gini indeksas gali būti ne idealus matas sprendimų medžio skilimų pobūdžiui įvertinti. Pavyzdžiui, tuo atveju, jei objektyvus kintamasis yra išskirtinai pasviręs arba nesubalansuotas, gali būti tinkamesnės kitos priemonės, pavyzdžiui, informacijos gavimo arba padidėjimo proporcija.

Polinkis į šališkumą, kai trūksta verčių: Jei trūksta reikšmių, Gini indeksas gali būti pakreiptas, nes jis paprastai bus linkęs į ypatybes, kurių trūksta mažiau, nepaisant to, ar jos nėra pačios informatyviausios.

Gini indekso taikymas realiame pasaulyje

Gini indeksas buvo naudojamas įvairiose mašininio mokymosi programose, pavyzdžiui, turto prievartavimo vietai, kredito balams ir klientų padalijimui. Pavyzdžiui, atrandant turto prievartavimą, Gini indeksas gali būti naudojamas norint atskirti dizainą keičiantis duomenimis ir atpažinti keistą elgesio būdą. Apskaičiuojant kreditą, Gini indeksas gali būti naudojamas numatant įsipareigojimų neįvykdymo tikimybę, atsižvelgiant į kintamuosius, tokius kaip pajamos, negrąžintos skolos ir namų užmokesčio santykis ir paskolos grąžinimo įrašas. Klientų padalinyje Gini indeksas gali būti naudojamas norint suburti klientus, atsižvelgiant į jų elgesį ir polinkius.

Ateities tyrimai

Nepaisant to, kad jis neribotai naudojamas sprendimų medžio algoritmuose, Gini indeksas vis dar yra tyrinėjamas. Viena iš tyrimų sričių yra naujų priemaišų priemonių, kurios gali pašalinti Gini indekso apribojimus, pavyzdžiui, jo polinkį į daugelio lygių veiksnius, pažanga. Dar viena tyrimų sritis yra sprendimų medžio algoritmų supaprastinimas naudojant Gini indeksą, pavyzdžiui, aprangos metodų panaudojimas sprendimų medžių tikslumui dirbti.

Išvada

Gini indeksas yra reikšmingas priemaišų matas, naudojamas sprendimų medžio algoritmuose atliekant klasifikavimo užduotis. Jis matuoja tikimybę, kad atsitiktinai pasirinktas testas bus klaidingai klasifikuojamas pagal sprendimų medžio algoritmą, o jo reikšmė svyruoja nuo 0 (visiškai grynas) iki 1 (visiškai nešvarus). Gini indeksas yra paprastas ir efektyvus, produktyvus skaičiavimais ir galingas, išskyrus išimtis. Jis buvo naudojamas įvairiose mašininio mokymosi programose, pavyzdžiui, klaidingo pateikimo atskleidimo, kreditų įvertinimo ir klientų padalijimo srityse. Nors Gini indeksas turi keletą apribojimų, vis dar yra tyrimų, kaip pagerinti jo ir naujų priemaišų priemonių tobulinimą.