logo

Klassificeringsalgoritm i maskininlärning

Som vi vet kan den övervakade maskininlärningsalgoritmen i stort sett klassificeras i regression och klassificeringsalgoritmer. I regressionsalgoritmer har vi förutspått utdata för kontinuerliga värden, men för att förutsäga de kategoriska värdena behöver vi klassificeringsalgoritmer.

Vad är klassificeringsalgoritmen?

Klassificeringsalgoritmen är en övervakad inlärningsteknik som används för att identifiera kategorin av nya observationer på basis av träningsdata. I klassificering lär sig ett program av den givna datamängden eller observationerna och klassificerar sedan nya observationer i ett antal klasser eller grupper. Till exempel, Ja eller Nej, 0 eller 1, Spam eller Inte Spam, katt eller hund, etc. Klasser kan kallas som mål/etiketter eller kategorier.

solig deol

Till skillnad från regression är utdatavariabeln för klassificering en kategori, inte ett värde, såsom 'grönt eller blått', 'frukt eller djur', etc. Eftersom klassificeringsalgoritmen är en övervakad inlärningsteknik kräver den märkta indata, vilket betyder att den innehåller indata med motsvarande utgång.

I klassificeringsalgoritmen mappas en diskret utdatafunktion(y) till indatavariabel(x).

 y=f(x), where y = categorical output 

Det bästa exemplet på en ML-klassificeringsalgoritm är Spamdetektor för e-post .

Huvudmålet med klassificeringsalgoritmen är att identifiera kategorin för en given datamängd, och dessa algoritmer används huvudsakligen för att förutsäga utdata för kategoridata.

Klassificeringsalgoritmer kan förstås bättre med hjälp av diagrammet nedan. I diagrammet nedan finns två klasser, klass A och klass B. Dessa klasser har egenskaper som liknar varandra och skiljer sig från andra klasser.

Klassificeringsalgoritm i maskininlärning

Algoritmen som implementerar klassificeringen på en datauppsättning är känd som en klassificerare. Det finns två typer av klassificeringar:

    Binär klassificerare:Om klassificeringsproblemet bara har två möjliga utfall, kallas det som Binär klassificerare.
    Exempel: JA eller NEJ, MAN eller KVINNA, SPAM eller INTE SPAM, KATT eller HUND, etc.Multi-class Classifier:Om ett klassificeringsproblem har mer än två utfall kallas det för Multi-class Classifier.
    Exempel: Klassificeringar av typer av grödor, Klassificering av typer av musik.

Elever i klassificeringsproblem:

I klassificeringsproblemen finns det två typer av elever:

    Lata elever:Lazy Learner lagrar först träningsdatauppsättningen och väntar tills den tar emot testdatauppsättningen. I Lazy learner-fallet görs klassificeringen på basis av de mest relaterade data som lagras i träningsdatauppsättningen. Det tar mindre tid på träningen men mer tid för förutsägelser.
    Exempel: K-NN algoritm, Case-based resonemangIvriga elever:Eager Learners utvecklar en klassificeringsmodell baserad på en träningsdatauppsättning innan de får en testdatauppsättning. I motsats till lata elever tar Eager Learner mer tid på att lära sig och mindre tid på att förutsäga. Exempel: Decision Trees, Na�ve Bayes, ANN.

Typer av ML-klassificeringsalgoritmer:

Klassificeringsalgoritmer kan ytterligare delas in i kategorin huvudsakligen två:

    Linjära modeller
    • Logistisk tillbakagång
    • Stöd Vector Machines
    Icke-linjära modeller
    • K-Närmaste grannar
    • Kärna SVM
    • Na�ve Bayes
    • Beslutsträdsklassificering
    • Slumpmässig skogsklassificering

Obs: Vi kommer att lära oss ovanstående algoritmer i senare kapitel.

Utvärdera en klassificeringsmodell:

När vår modell är klar är det nödvändigt att utvärdera dess prestanda; antingen är det en klassificerings- eller regressionsmodell. Så för att utvärdera en klassificeringsmodell har vi följande sätt:

1. Loggförlust eller kors-entropiförlust:

  • Den används för att utvärdera prestandan hos en klassificerare, vars utdata är ett sannolikhetsvärde mellan 0 och 1.
  • För en bra binär klassificeringsmodell bör värdet av logförlust vara nära 0.
  • Värdet på stockförlust ökar om det förutsagda värdet avviker från det faktiska värdet.
  • Den lägre stockförlusten representerar modellens högre noggrannhet.
  • För binär klassificering kan korsentropi beräknas som:
 ?(ylog(p)+(1?y)log(1?p)) 

Där y = faktisk uteffekt, p = förutspådd uteffekt.

2. Förvirringsmatris:

  • Förvirringsmatrisen ger oss en matris/tabell som utdata och beskriver modellens prestanda.
  • Det är också känt som felmatrisen.
  • Matrisen består av förutsägelser resulterar i en sammanfattad form, som har ett totalt antal korrekta förutsägelser och felaktiga förutsägelser. Matrisen ser ut som nedanstående tabell:
Faktiskt positivt Faktiskt negativt
Förutspått positivt Riktigt positiv Falskt positivt
Förutspått negativ Falskt negativ Riktigt negativ
Klassificeringsalgoritm i maskininlärning

3. AUC-ROC-kurva:

sträng konvertera till int i java
  • ROC-kurva står för Mottagarens funktionskurva och AUC står för Område under kurvan .
  • Det är en graf som visar klassificeringsmodellens prestanda vid olika trösklar.
  • För att visualisera prestandan hos flerklassklassificeringsmodellen använder vi AUC-ROC-kurvan.
  • ROC-kurvan plottas med TPR och FPR, där TPR (True Positive Rate) på Y-axeln och FPR (False Positive Rate) på X-axeln.

Användningsfall av klassificeringsalgoritmer

Klassificeringsalgoritmer kan användas på olika platser. Nedan följer några populära användningsfall av klassificeringsalgoritmer:

  • Upptäcka skräppost via e-post
  • Taligenkänning
  • Identifiering av cancertumörceller.
  • Läkemedelsklassificering
  • Biometrisk identifiering etc.