logo

Gini Index i maskininlärning

Introduktion

Maskininlärning har reformerat sättet på vilket vi bearbetar och granskar data, och beslutsträdsalgoritmer är ett berömt beslut för klassificerings- och regressionsuppgifter. Gini-index, annars kallat Gini-förorening eller Gini-koefficient, är ett betydande föroreningsmått som används i beslutsträdsalgoritmer. I den här artikeln kommer vi att undersöka idén med Gini Index uttömmande, dess numeriska formel och dess tillämpningar inom maskininlärning. Vi kommer på samma sätt att kontrastera Gini Index och andra föroreningsmått, prata om dess begränsningar och fördelar och inspektera kontextuella analyser av dess verkliga tillämpningar. Äntligen kommer vi att presentera framtidens bäring för forskning här.

Vad är Gini Index?

Gini-indexet är en andel av orenheter eller ojämlikhet i statistiska och monetära miljöer. Inom maskininlärning används den som ett orenhetsmått i beslutsträdsalgoritmer för klassificeringsuppgifter. Gini-indexet mäter sannolikheten för att ett slumpmässigt valt test blir felklassificerat av en beslutsträdsalgoritm, och dess värde går från 0 (perfekt ren) till 1 (perfekt oren).

Gini Index Formel

Gini-indexet är en andel av orenheten eller ojämlikheten i en cirkulation, som regelbundet används som ett föroreningsmått i beslutsträdsalgoritmer. När det gäller beslutsträd används Gini-indexet för att bestämma den bästa funktionen att dela upp data på vid varje nod i trädet.

Formeln för Gini Index är enligt följande:

Gini Index i maskininlärning

där pi är sannolikheten för att en sak ska ha en plats med en specifik klass.

Till exempel bör vi överväga en binär klassificeringsfråga med två klasser An och B. Om sannolikheten för klass A är p och sannolikheten för klass B är (1-p), kan Gini-indexet beräknas som :

Värdet på Gini Index går från 0,0 till 0,5 för binära klassificeringsproblem, där 0,0 visar en perfekt ren nod (alla exempel har en plats med en liknande klass) och 0,5 visar en perfekt oren nod (testen är lika fördelade över de två klasserna ).

Använda Gini Index i klassificeringsproblem

Gini Index används vanligtvis som ett orenhetsmått i beslutsträdsalgoritmer för klassificeringsproblem. I beslutsträd adresserar varje nod ett element, och målet är att dela upp data i delmängder som i huvudsak är så rena som man kan förvänta sig. Föroreningsmåttet (som Gini Index) används för att bestämma den bästa splittringen vid varje nod.

För att illustrera detta bör vi överväga ett exempel på ett beslutsträd för en binär klassificeringsfråga. Trädet har två element: ålder och inkomst, och målet är att förutse oavsett om en individ förmodligen kommer att köpa en vara. Trädet är konstruerat med hjälp av Gini Index som föroreningsmått.

Vid rotnoden beräknas Gini Index med tanke på sannolikheten för att exemplen får en plats med klass 0 eller klass 1. Noden delas upp med tanke på den komponent som utfaller i den mest förhöjda minskningen av Gini Index. Denna cykel hashas om rekursivt för varje delmängd tills ett stoppmått uppnås.

Beslutsträd

Ett beslutsträd är en välkänd maskininlärningsalgoritm som används för både klassificerings- och regressionsuppgifter. En modell bearbetas genom att rekursivt dela upp datamängden i mer blygsamma delmängder i ljuset av värdena för informationshöjdpunkterna, fastställda för att begränsa föroreningen i de efterföljande underuppsättningarna.

Vid varje nod i trädet fattas ett beslut med tanke på värdena för en av infohöjdpunkterna, med slutmålet att de efterföljande delmängderna i princip är så rena som man verkligen kunde förvänta sig. Renheten hos en delmängd uppskattas regelbundet av ett föroreningsmått, till exempel Gini Index eller entropin.

Beslutsträdsalgoritmen kan användas för både binära och flerklassiga klassificeringsuppgifter, såväl som regressionsuppgifter. I binära klassificeringsuppgifter delar beslutsträdet upp datasetet i två delmängder i ljuset av värdet på en binär funktion, som ja eller nej. I klassificeringsuppgifter i flera klasser delar beslutsträdet upp datauppsättningen i flera delmängder i ljuset av värdena för en rak ut funktion, som röd, grön eller blå.

Gini Index vs andra föroreningsmått

Förutom Gini Index finns det andra orenheter som normalt används i beslutsträdsalgoritmer, till exempel entropi och informationsvinst.

Entropi:

Inom maskininlärning är entropi en del av oegentligheten eller sårbarheten i ett gäng data. Det används vanligtvis som ett föroreningsmått i beslutsträdsalgoritmer, tillsammans med Gini Index.

I beslutsträdsalgoritmer används entropi för att bestämma den bästa komponenten att dela upp data på vid varje nod i trädet. Målet är att hitta det element som ger störst minskning av entropi, vilket relaterar till den komponent som ger mest information om klassificeringsfrågan.

Gini Index i maskininlärning

Medan entropi och Gini-index båda normalt används som föroreningsmått i beslutsträdsalgoritmer, har de olika egenskaper. Entropi är mer känslig för cirkulationen av klassnamn och kommer i allmänhet att leverera mer anpassade träd, medan Gini Index är mindre känsligt för tillägnandet av klassmärken och kommer i allmänhet att skapa mer begränsade träd med mindre delningar. Beslutet om föroreningsåtgärd förlitar sig på den specifika frågan och attributen för data.

Informationsvinst:

Informationsvinst är en åtgärd som används för att bedöma arten av en split medan man bygger ett beslutsträd. Målet med ett beslutsträd är att dela upp data i delmängder som i princip är så homogena som tänkbara som för objektivvariabeln, så det efterföljande trädet kan användas för att göra exakta förväntningar på ny data. Informationsvinst mäter minskningen av entropi eller orenhet som åstadkoms av en split. Funktionen med den mest anmärkningsvärda informationsvinsten väljs som den bästa funktionen att dela på vid varje nod i beslutsträdet.

Informationsvinst är ett normalt involverat mått för att bedöma arten av splittringar i beslutsträd, men det är inte det man ska fokusera på. Olika mått, till exempel Gini-index eller felklassificeringsgrad, kan också användas. Beslutet om att dela upp basen beror på huvudfrågan och attributen för datamängden som används.

Exempel på Gini-index

Vi bör överväga en binär klassificeringsfråga där vi har en datauppsättning med 10 exempel med två klasser: 'Positiv' och 'Negativ'. Av de 10 exemplen har 6 en plats med klassen 'Positiv' och 4 har en plats i klassen 'Negativa'.

För att beräkna Gini-indexet för datamängden beräknar vi initialt sannolikheten för varje klass:

p_1 = 6/10 = 0,6 (positiv)

p_2 = 4/10 = 0,4 (negativ)

Då använder vi Gini Index-formeln för att beräkna föroreningen i datamängden:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Så, Gini-indexet för datamängden är 0,48.

Anta för närvarande att vi behöver dela upp datasetet på ett element 'X' som har två potentiella värden: 'A' och 'B'. Vi delar upp datasetet i två delmängder med tanke på komponenten:

Delmängd 1 (X = A): 4 positiv, 1 negativ

Delmängd 2 (X = B): 2 positiva, 3 negativa

För att beräkna minskningen av Gini Index för denna uppdelning, beräknar vi initialt Gini Index för varje delmängd:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Sedan använder vi informationsvinstformeln för att beräkna minskningen av Gini Index:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Så informationsvinsten (d.v.s. minskning av Gini-index) för att dela upp datasetet på markeringen 'X' är 0,08.

För den här situationen, i händelse av att vi beräknar informationsvinsten för alla element och väljer den med den mest anmärkningsvärda informationsvinsten, skulle den komponenten väljas som den bästa komponenten att dela på vid rotnoden i beslutsträdet.

Fördelar:

Gini-indexet är ett brett involverat mått för att utvärdera arten av splittringar i beslutsträd, och det har ett par övertag över olika mått, till exempel entropi eller felklassificeringsfrekvens. Här är en del av de viktigaste fördelarna med att använda Gini-index:

hur man konverterar char till string java

Beräkningseffektiv: Gini-indexet är ett mindre komplext och beräkningsmässigt snabbare mått i kontrast till olika mått, till exempel entropi, som innebär beräkning av logaritmer.

Intuitiv tolkning: Gini-indexet är enkelt och tolkar. Den mäter sannolikheten för att ett slumpmässigt valt exempel från en uppsättning är felaktigt klassificerad i händelse av att den var slumpmässigt märkt enligt klassöverföringen i uppsättningen.

Bra för binär klassificering: Gini-indexet är särskilt kraftfullt för binära klassificeringsproblem, där objektivvariabeln bara har två klasser. I sådana fall är Gini-indexet känt för att vara mer stabilt än olika mått.

Robust till klassobalans: Gini-indexet är mindre känsligt för klassobalans jämfört med olika mått, till exempel precision eller felklassificeringsgrad. Detta på grund av att Gini-indexet beror på den allmänna omfattningen av exemplen i varje klass i motsats till de direkta siffrorna.

Mindre benägna att överanpassa: Gini-indexet kommer i allmänhet att göra mer blygsamma beslutsträd i kontrast till olika mått, vilket gör det mindre benäget att överanpassa. Detta på grund av att Gini-indexet i allmänhet kommer att gynna funktioner som gör mer blygsamma paket av data, vilket minskar möjligheterna att överanpassa.

Nackdelar:

Medan Gini-indexet har några fördelar som ett uppdelningsmått för beslutsträd, har det också några nackdelar. Här är en del av de viktigaste nackdelarna med att använda Gini-index:

Bias mot funktioner med många kategorier: Gini-indexet kommer i allmänhet att luta mot funktioner med många kategorier eller värden, eftersom de kan göra fler uppdelningar och paket av data. Detta kan leda till övermontering och ett mer komplicerat beslutsträd.

Inte bra för kontinuerliga variabler: Gini-indexet är inte lämpligt för kontinuerliga variabler, eftersom det kräver diskretisering av variabeln i kategorier eller fack, vilket kan leda till förlust av information och minskad exakthet.

Ignorerar funktionsinteraktioner: Gini-indexet tänker bara på den individuella förutseende kraften hos varje funktion och ignorerar interaktioner mellan funktioner. Detta kan leda till dåliga splittringar och mindre exakta prognoser.

Inte idealiskt för vissa datauppsättningar: ibland är Gini-index inte det idealiska måttet för att utvärdera arten av splittringar i ett beslutsträd. Till exempel, i händelse av att den objektiva variabeln är exceptionellt sned eller obalanserad, kan olika mått, till exempel informationsvinst eller vinstproportion, vara mer lämpliga.

Benägen till partiskhet i närvaro av saknade värden: Gini-indexet kan vara partisk i närvaro av saknade värden, eftersom det i allmänhet kommer att luta mot funktioner med mindre saknade värden, oavsett om de inte är de mest informativa.

Real-World Applications of Gini Index

Gini-indexet har använts i olika tillämpningar inom maskininlärning, till exempel, utpressningsplats, kreditvärdering och kunduppdelning. Till exempel, vid upptäckt av utpressning, kan Gini-indexet användas för att särskilja mönster i utbyte av data och känna igen bisarra sätt att bete sig. Vid kreditvärdering kan Gini-indexet användas för att förutse sannolikheten för fallissemang med tanke på variabler som inkomst, förhållandet mellan utestående skulder för att ta hem betalningen och registrering av återbetalning av lån. I klientdivisionen kan Gini Index användas för att samla kunder med tanke på deras sätt att uppträda och böjelser.

Framtida forskning

Trots dess gränslösa användning i beslutsträdsalgoritmer, finns det fortfarande grad för forskning om Gini Index. Ett forskningsområde är utvecklingen av nya föroreningsåtgärder som kan ta itu med Gini-indexets begränsningar, som dess benägenhet mot faktorer med många nivåer. Ytterligare ett forskningsområde är effektiviseringen av beslutsträdsalgoritmer med hjälp av Gini-index, till exempel användningen av outfittekniker för att arbeta med beslutsträdens precision.

Slutsats

Gini Index är ett betydande föroreningsmått som används i beslutsträdsalgoritmer för klassificeringsuppgifter. Den mäter sannolikheten för att ett slumpmässigt utvalt test felklassificeras av en beslutsträdsalgoritm, och dess värde går från 0 (perfekt ren) till 1 (perfekt oren). Gini-indexet är enkelt och genomförbart, beräkningsproduktivt och kraftfullt till undantag. Det har använts i olika applikationer inom maskininlärning, till exempel, upptäckt av felaktig framställning, kreditvärdering och kunduppdelning. Medan Gini Index har några begränsningar, finns det fortfarande grad för forskning om dess förbättring och förbättring av nya föroreningsåtgärder.