ÖVERVAKAT OCH OÖVERVAKAT LÄRANDE - TECHCODEVIEW.COM

Maskininlärning är ett område inom datavetenskap som ger datorer möjligheten att lära sig utan att vara explicit programmerad. Övervakat lärande och oövervakat lärande är två huvudtyper av maskininlärning .

I övervakat lärande , är maskinen tränad på en uppsättning märkta data, vilket innebär att indata paras med önskad utgång. Maskinen lär sig sedan att förutsäga utdata för ny indata. Övervakat lärande används ofta för uppgifter som klassificering, regression och objektdetektering.

Vid oövervakad inlärning tränas maskinen på en uppsättning omärkta data, vilket innebär att indata inte paras ihop med önskad utdata. Maskinen lär sig sedan hitta mönster och samband i datan. Oövervakat lärande används ofta för uppgifter som t.ex klustring , dimensionsreducering och anomalidetektering.

Vad är övervakat lärande?

Övervakat lärande är en typ av maskininlärningsalgoritm som lär sig av märkta data. Märkt data är data som har märkts med ett korrekt svar eller klassificering.

Handledd inlärning har, som namnet antyder, närvaron av en handledare som lärare. Övervakat lärande är när vi lär eller tränar maskinen med hjälp av data som är väl märkt. Vilket betyder att vissa data redan är taggade med rätt svar. Därefter förses maskinen med en ny uppsättning exempel(data) så att den övervakade inlärningsalgoritmen analyserar träningsdata(uppsättning träningsexempel) och ger ett korrekt resultat från märkta data.

Till exempel skulle en märkt datauppsättning av bilder av Elephant, Camel och Cow ha varje bild taggad med antingen Elephant , Camelor Cow.

Övervakat lärande

Nyckelord:

Övervakad inlärning innebär att man tränar en maskin från märkt data.
Märkt data består av exempel med rätt svar eller klassificering.
Maskinen lär sig förhållandet mellan indata (fruktbilder) och utdata (fruktetiketter).
Den tränade maskinen kan sedan göra förutsägelser på ny, omärkt data.

Exempel:

Låt oss säga att du har en fruktkorg som du vill identifiera. Maskinen skulle först analysera bilden för att extrahera funktioner som dess form, färg och textur. Sedan skulle den jämföra dessa egenskaper med egenskaperna hos frukterna den redan har lärt sig om. Om den nya bildens egenskaper är mest lik ett äpple, skulle maskinen förutsäga att frukten är ett äpple.

lista sortering java

Till exempel , anta att du får en korg fylld med olika sorters frukter. Nu är det första steget att träna maskinen med alla olika frukter en efter en så här:

Om formen på föremålet är rundad och har en fördjupning i toppen, är röd till färgen, kommer det att märkas som – Äpple .
Om formen på föremålet är en lång böjd cylinder med grön-gul färg, kommer det att märkas som – Banan .

Anta nu att du efter att ha tränat data har gett en ny separat frukt, säg Banan från korgen, och bett om att identifiera den.

Eftersom maskinen redan har lärt sig saker från tidigare data och den här gången måste använda den på ett klokt sätt. Den kommer först att klassificera frukten med dess form och färg och bekräftar fruktnamnet som BANAN och placerar den i kategorin Banan. Maskinen lär sig alltså sakerna från träningsdata (korg som innehåller frukt) och tillämpar sedan kunskapen för att testa data (ny frukt).

Typer av övervakat lärande

Övervakat lärande klassificeras i två kategorier av algoritmer:

Regression : Ett regressionsproblem är när utdatavariabeln är ett verkligt värde, såsom dollar eller vikt.
Klassificering : Ett klassificeringsproblem är när utdatavariabeln är en kategori, till exempel Röd eller blå , sjukdom eller ingen sjukdom.

Övervakat lärande handlar om eller lär sig med märkta data. Detta innebär att vissa data redan är taggade med rätt svar.

1- Regression

Regression är en typ av övervakat lärande som används för att förutsäga kontinuerliga värden, såsom huspriser, aktiekurser eller kundavgång. Regressionsalgoritmer lär sig en funktion som mappar från indatafunktionerna till utdatavärdet.

Några vanliga regressionsalgoritmer omfatta:

Linjär regression
Polynomregression
Stöd Vector Machine Regression
Regression av beslutsträd
Slumpmässig skogsregression

2- Klassificering

Klassificering är en typ av övervakad inlärning som används för att förutsäga kategoriska värden, till exempel om en kund kommer att churna eller inte, om ett e-postmeddelande är spam eller inte, eller om en medicinsk bild visar en tumör eller inte. Klassificeringsalgoritmer lär sig en funktion som mappar från indatafunktionerna till en sannolikhetsfördelning över utdataklasserna.

java-formatsträng

Några vanliga klassificeringsalgoritmer omfatta:

Logistisk tillbakagång
Stöd Vector Machines
Beslutsträd
Slumpmässiga skogar
Naiv Baye

Utvärdera övervakade inlärningsmodeller

Att utvärdera övervakade lärandemodeller är ett viktigt steg för att säkerställa att modellen är korrekt och generaliserbar. Det finns ett antal olika metrik som kan användas för att utvärdera övervakade inlärningsmodeller, men några av de vanligaste inkluderar:

För regression

Mean Squared Error (MSE): MSE mäter den genomsnittliga kvadratiska skillnaden mellan de förutsagda värdena och de faktiska värdena. Lägre MSE-värden indikerar bättre modellprestanda.
Root Mean Squared Error (RMSE): RMSE är kvadratroten av MSE, som representerar standardavvikelsen för prediktionsfelen. I likhet med MSE indikerar lägre RMSE-värden bättre modellprestanda.
Genomsnittligt absolut fel (MAE): MAE mäter den genomsnittliga absoluta skillnaden mellan de förutsagda värdena och de faktiska värdena. Den är mindre känslig för extremvärden jämfört med MSE eller RMSE.
R-kvadrat (bestämningskoefficient): R-kvadrat mäter andelen av variansen i målvariabeln som förklaras av modellen. Högre R-kvadratvärden indikerar bättre modellpassning.

För klassificering

Noggrannhet: Noggrannhet är procentandelen förutsägelser som modellen gör korrekt. Det beräknas genom att dividera antalet korrekta förutsägelser med det totala antalet förutsägelser.
Precision: Precision är procentandelen positiva förutsägelser som modellen gör som faktiskt är korrekta. Det beräknas genom att dividera antalet sanna positiva med det totala antalet positiva förutsägelser.
Återkallelse: Recall är procentandelen av alla positiva exempel som modellen identifierar korrekt. Det beräknas genom att dividera antalet sanna positiva med det totala antalet positiva exempel.
F1 poäng: F1-poängen är ett vägt genomsnitt av precision och återkallelse. Den beräknas genom att ta det harmoniska medelvärdet av precision och återkallelse.
Förvirringsmatris: En förvirringsmatris är en tabell som visar antalet förutsägelser för varje klass, tillsammans med de faktiska klassetiketterna. Den kan användas för att visualisera modellens prestanda och identifiera områden där modellen kämpar.

Tillämpningar av övervakat lärande

Övervakat lärande kan användas för att lösa en mängd olika problem, inklusive:

kamelfodral python

Skräppostfiltrering: Övervakade inlärningsalgoritmer kan tränas för att identifiera och klassificera skräppostmeddelanden baserat på deras innehåll, vilket hjälper användare att undvika oönskade meddelanden.
Bildklassificering: Övervakad inlärning kan automatiskt klassificera bilder i olika kategorier, såsom djur, föremål eller scener, vilket underlättar uppgifter som bildsökning, innehållsmoderering och bildbaserade produktrekommendationer.
Medicinsk diagnos: Övervakad inlärning kan hjälpa till vid medicinsk diagnos genom att analysera patientdata, såsom medicinska bilder, testresultat och patienthistorik, för att identifiera mönster som tyder på specifika sjukdomar eller tillstånd.
Spårning av bedrägerier: Övervakade inlärningsmodeller kan analysera finansiella transaktioner och identifiera mönster som indikerar bedräglig aktivitet, vilket hjälper finansinstitut att förhindra bedrägerier och skydda sina kunder.
Naturlig språkbehandling (NLP): Övervakat lärande spelar en avgörande roll i NLP-uppgifter, inklusive sentimentanalys, maskinöversättning och textsammanfattning, vilket gör det möjligt för maskiner att förstå och bearbeta mänskligt språk effektivt.

Fördelar med övervakat lärande

Övervakat lärande gör det möjligt att samla in data och producerar data från tidigare erfarenheter.
Hjälper till att optimera prestationskriterier med hjälp av erfarenhet.
Övervakad maskininlärning hjälper till att lösa olika typer av verkliga beräkningsproblem.
Den utför klassificerings- och regressionsuppgifter.
Det gör det möjligt att uppskatta eller mappa resultatet till ett nytt prov.
Vi har fullständig kontroll över att välja antalet klasser vi vill ha i träningsdatan.

Nackdelar med övervakat lärande

Att klassificera big data kan vara utmanande.
Utbildning för övervakat lärande kräver mycket beräkningstid. Så det kräver mycket tid.
Övervakad inlärning kan inte hantera alla komplexa uppgifter i maskininlärning.
Beräkningstiden är enorm för övervakat lärande.
Det kräver en märkt datamängd.
Det kräver en utbildningsprocess.

Vad är oövervakat lärande?

Oövervakad inlärning är en typ av maskininlärning som lär sig av omärkta data. Detta innebär att data inte har några redan existerande etiketter eller kategorier. Målet med oövervakat lärande är att upptäcka mönster och samband i data utan någon explicit vägledning.

Oövervakad inlärning är träning av en maskin som använder information som varken är klassificerad eller märkt och låter algoritmen agera på den informationen utan vägledning. Här är maskinens uppgift att gruppera osorterad information efter likheter, mönster och skillnader utan någon förhandsträning av data.

Till skillnad från övervakad inlärning tillhandahålls ingen lärare vilket innebär att ingen utbildning kommer att ges till maskinen. Därför är maskinen begränsad till att själv hitta den dolda strukturen i omärkta data.

Du kan använda oövervakad inlärning för att undersöka djurdata som har samlats in och skilja mellan flera grupper efter djurens egenskaper och handlingar. Dessa grupperingar kan motsvara olika djurarter, vilket ger dig möjlighet att kategorisera varelserna utan att vara beroende av etiketter som redan finns.

Oövervakat lärande

Nyckelord

Oövervakat lärande gör att modellen kan upptäcka mönster och samband i omärkta data.
Klustringsalgoritmer grupperar liknande datapunkter baserat på deras inneboende egenskaper.
Funktionsextraktion fångar viktig information från data, vilket gör det möjligt för modellen att göra meningsfulla skillnader.
Etikettassociation tilldelar kategorier till klustren baserat på de extraherade mönstren och egenskaperna.

Exempel

Föreställ dig att du har en maskininlärningsmodell tränad på ett stort dataset av omärkta bilder, som innehåller både hundar och katter. Modellen har aldrig sett en bild av en hund eller katt tidigare, och den har inga redan existerande etiketter eller kategorier för dessa djur. Din uppgift är att använda oövervakad inlärning för att identifiera hundarna och katterna i en ny, osynlig bild.

Till exempel , anta att den får en bild med både hundar och katter som den aldrig har sett.

Således har maskinen ingen aning om egenskaperna hos hundar och katter så vi kan inte kategorisera den som 'hundar och katter'. Men det kan kategorisera dem efter deras likheter, mönster och skillnader, det vill säga vi kan enkelt kategorisera bilden ovan i två delar. Den första kan innehålla alla bilder som har hundar i dem och den andra delen kan innehålla alla bilder som har katter i dem. Här har du inte lärt dig något tidigare, vilket betyder att du inte har några träningsdata eller exempel.

Det gör att modellen kan arbeta på egen hand för att upptäcka mönster och information som tidigare var oupptäckt. Det handlar främst om omärkta data.

Typer av oövervakat lärande

Oövervakat lärande klassificeras i två kategorier av algoritmer:

Klustring : Ett klustringsproblem är när du vill upptäcka de inneboende grupperingarna i datan, som att gruppera kunder efter köpbeteende.
Förening : Ett problem med inlärning av associationsregel är där du vill upptäcka regler som beskriver stora delar av din data, till exempel att personer som köper X också tenderar att köpa Y.

Klustring

Clustering är en typ av oövervakad inlärning som används för att gruppera liknande datapunkter. Klustringsalgoritmer arbeta genom att iterativt flytta datapunkter närmare sina klustercentrum och längre bort från datapunkter i andra kluster.

Exklusivt (partitionering)
Agglomerativ
Överlappande
Probabilistiskt

Klustringstyper:-

Hierarkisk klustring
K- betyder klustring
Huvudkomponentanalys
Singulärvärdesfaktorisering
Oberoende komponentanalys
Gaussiska blandningsmodeller (GMM)
Densitetsbaserad rumslig klustring av applikationer med brus (DBSCAN)

Föreningsregelinlärning

Associationsregelinlärning är en typ av oövervakad inlärning som används för att identifiera mönster i en data. Föreningsregel inlärningsalgoritmer fungerar genom att hitta relationer mellan olika objekt i en datauppsättning.

Några vanliga algoritmer för inlärning av associationsregel inkluderar:

Apriori-algoritm
Eclat-algoritm
FP-Growth Algorithm

Utvärdera icke-övervakade inlärningsmodeller

Att utvärdera icke-övervakade lärandemodeller är ett viktigt steg för att säkerställa att modellen är effektiv och användbar. Det kan dock vara mer utmanande än att utvärdera övervakade inlärningsmodeller, eftersom det inte finns några grundläggande sanningsdata att jämföra modellens förutsägelser med.

Det finns ett antal olika mätetal som kan användas för att utvärdera icke-övervakade inlärningsmodeller, men några av de vanligaste inkluderar:

jasmine davis som barn

Silhouette poäng: Siluettpoängen mäter hur väl varje datapunkt är klustrad med sina egna klustermedlemmar och separerade från andra kluster. Det sträcker sig från -1 till 1, med högre poäng som indikerar bättre klustring.
Calinski-Harabasz poäng: Calinski-Harabasz-poängen mäter förhållandet mellan variansen mellan kluster och variansen inom kluster. Det sträcker sig från 0 till oändligt, med högre poäng som indikerar bättre klustring.
Justerat randindex: Det justerade Rand-indexet mäter likheten mellan två klustringar. Det sträcker sig från -1 till 1, med högre poäng som indikerar fler liknande klustringar.
Davies-Bouldin index: Davies-Bouldin-indexet mäter den genomsnittliga likheten mellan kluster. Det sträcker sig från 0 till oändligt, med lägre poäng som indikerar bättre klustring.
F1 poäng: F1-poängen är ett viktat medelvärde av precision och återkallelse, vilket är två mått som vanligtvis används i övervakat lärande för att utvärdera klassificeringsmodeller. F1-poängen kan dock också användas för att utvärdera icke-övervakade inlärningsmodeller, såsom klustringsmodeller.

Ansökan av oövervakat lärande

Icke-övervakat lärande kan användas för att lösa en mängd olika problem, inklusive:

Avvikelsedetektering: Oövervakad inlärning kan identifiera ovanliga mönster eller avvikelser från normalt beteende i data, vilket möjliggör upptäckt av bedrägeri, intrång eller systemfel.
Vetenskaplig upptäckt: Oövervakat lärande kan avslöja dolda samband och mönster i vetenskapliga data, vilket leder till nya hypoteser och insikter inom olika vetenskapliga områden.
Rekommendationssystem: Oövervakat lärande kan identifiera mönster och likheter i användarbeteende och preferenser för att rekommendera produkter, filmer eller musik som passar deras intressen.
Kundsegmentering: Oövervakat lärande kan identifiera grupper av kunder med liknande egenskaper, vilket gör det möjligt för företag att rikta marknadsföringskampanjer och förbättra kundservicen mer effektivt.
Bildanalys: Oövervakat lärande kan gruppera bilder baserat på deras innehåll, vilket underlättar uppgifter som bildklassificering, objektdetektering och bildhämtning.

Fördelar av oövervakat lärande

Det kräver inte att träningsdata märks.
Dimensionalitetsreduktion kan enkelt åstadkommas med hjälp av oövervakat lärande.
Kan hitta tidigare okända mönster i data.
Oövervakat lärande kan hjälpa dig att få insikter från omärkta data som du kanske inte hade kunnat få annars.
Oövervakat lärande är bra på att hitta mönster och samband i data utan att få veta vad man ska leta efter. Detta kan hjälpa dig att lära dig nya saker om din data.

Nackdelar av oövervakat lärande

Svårt att mäta noggrannhet eller effektivitet på grund av brist på fördefinierade svar under träning.
Resultaten har ofta mindre noggrannhet.
Användaren behöver lägga tid på att tolka och märka de klasser som följer den klassificeringen.
Oövervakad inlärning kan vara känslig för datakvalitet, inklusive saknade värden, extremvärden och bullriga data.
Utan märkt data kan det vara svårt att utvärdera prestandan hos oövervakade inlärningsmodeller, vilket gör det svårt att bedöma deras effektivitet.

Övervakad vs. oövervakad maskininlärning

Parametrar	Övervakad maskininlärning	Oövervakad maskininlärning
Indata	Algoritmer tränas med hjälp av märkta data.	Algoritmer används mot data som inte är märkta
Beräkningskomplexitet	Enklare metod	Beräkningsmässigt komplex
Noggrannhet	Mycket exakt	Mindre exakt
Antal klasser	Antal klasser är känt	Antal klasser är inte känt
Dataanalys	Använder offlineanalys	Använder realtidsanalys av data
Algoritmer som används	Linjär och logistisk regression, Random forest, multi-class klassificering, beslutsträd, Support Vector Machine, Neural Network, etc.	K-Means klustring, Hierarkisk klustring, KNN, Apriori-algoritm, etc.
Produktion	Önskad utgång ges.	Önskad utgång anges inte.
Träningsdata	Använd träningsdata för att härleda modell.	Inga träningsdata används.
Komplex modell	Det går inte att lära sig större och mer komplexa modeller än med handledat lärande.	Det är möjligt att lära sig större och mer komplexa modeller med oövervakat lärande.
Modell	Vi kan testa vår modell.	Vi kan inte testa vår modell.
Kallas som	Övervakat lärande kallas även klassificering.	Oövervakat lärande kallas också klustring.
Exempel	Exempel: Optisk teckenigenkänning.	Exempel: Hitta ett ansikte i en bild.
Övervakning	övervakat lärande behöver handledning för att träna modellen.	Oövervakat lärande behöver ingen handledning för att träna modellen.

Slutsats

Övervakat och oövervakat lärande är två kraftfulla verktyg som kan användas för att lösa en mängd olika problem. Övervakat lärande lämpar sig väl för uppgifter där önskad effekt är känd, medan oövervakad inlärning är väl lämpad för uppgifter där önskad effekt är okänd.

Vanliga frågor (FAQ)

1. Vad är skillnaden mellan övervakat och oövervakat maskinspråk?

Övervakad och oövervakad inlärning är två grundläggande tillvägagångssätt för maskininlärning som skiljer sig åt i utbildningsdata och inlärningsmål.

Övervakat lärande innebär att man tränar en maskininlärningsmodell på en märkt datauppsättning, där varje datapunkt har en motsvarande etikett eller utdatavärde. Algoritmen lär sig att mappa indata till önskad utdata, vilket gör att den kan göra förutsägelser för ny, osynlig data.

Oövervakat lärande , å andra sidan, handlar om omärkta datauppsättningar, där datapunkterna inte har associerade etiketter eller utdatavärden.

2. Vad är övervakat lärande?

Övervakad inlärning är en typ av maskininlärning där algoritmen tränas på en märkt dataset, där varje datapunkt har en motsvarande etikett eller utdatavärde. Algoritmen lär sig att mappa indata till önskad utdata, vilket gör att den kan göra förutsägelser för ny, osynlig data.

3. Vilka är vanliga algoritmer för övervakad inlärning?

Vanliga övervakade inlärningsalgoritmer inkluderar:

Klassificering: Används för att tilldela kategorier till datapunkter. Exempel inkluderar stödvektormaskiner (SVM), logistisk regression och beslutsträd.

Regression: Används för att förutsäga kontinuerliga numeriska värden. Exempel inkluderar linjär regression, polynomregression och åsregression.

4. Vilka är vanliga oövervakade inlärningsalgoritmer?

Vanliga oövervakade inlärningsalgoritmer inkluderar:

Klustring: Gruppera datapunkter i kluster baserat på deras likhet. Exempel inkluderar k-betyder klustring och hierarkisk klustring.

Dimensionalitetsreduktion: Minska antalet funktioner i en datauppsättning samtidigt som den viktigaste informationen bevaras. Exempel inkluderar principal component analysis (PCA) och autoencoders.

5. Vad är oövervakat lärande?

Oövervakad inlärning är en typ av maskininlärning där algoritmen tränas på en omärkt datauppsättning, där datapunkterna inte har motsvarande etiketter eller utdatavärden. Algoritmen lär sig att identifiera mönster och strukturer i data utan explicit vägledning.
tostring java-metoden

6. När ska man använda övervakat lärande kontra oövervakat lärande?

Använd övervakad inlärning när du har en märkt datauppsättning och vill göra förutsägelser för ny data. Använd oövervakad inlärning när du har en omärkt datauppsättning och vill identifiera mönster eller strukturer i datan.