CRISP-DM står för den branschövergripande standardprocessen för datautvinning. CRISP-DM-metoden ger ett strukturerat tillvägagångssätt för att planera ett datautvinningsprojekt. Det är en robust och väl beprövad metodik. Vi gör inte anspråk på något ägande över det. Vi uppfann det inte. Vi är en omvandlare av dess kraftfulla praktiska, flexibilitet och användbarhet när vi använder analyser för att lösa affärsproblem. Det är den gyllene tråden som löper genom nästan varje kundmöte.
Denna modell är ett idealiserat händelseförlopp. I praktiken kan många uppgifter utföras i en annan ordning, och det kommer ofta att vara nödvändigt att gå tillbaka till tidigare uppgifter och upprepa vissa åtgärder. Modellen försöker inte fånga alla möjliga vägar genom datautvinningsprocessen.
Hur hjälper CRISP?
CRISP DM tillhandahåller en färdplan, den ger dig bästa praxis och den ger strukturer för bättre och snabbare resultat av att använda datautvinning, så det är så det hjälper företaget att följa med när man planerar och genomför ett datautvinningsprojekt.
Faser av CRISP-DM
CRISP-DM ger en översikt över datamininglivscykeln som processmodell. Livscykelmodellen består av sex faser, med pilar som indikerar de viktigaste och mest frekventa beroenden mellan faserna. Sekvensen av faserna är inte strikt. Och de flesta projekt flyttar fram och tillbaka mellan faserna efter behov. CRISP-DM-modellen är flexibel och kan enkelt anpassas.
Till exempel, om din organisation strävar efter att upptäcka penningtvätt, kommer du sannolikt att sålla igenom stora mängder data utan ett specifikt modellmål. Istället för modellering kommer ditt arbete att fokusera på datautforskning och visualisering för att avslöja misstänkta mönster i finansiell data. CRISP-DM låter dig skapa en datautvinningsmodell som passar dina behov.
Den innehåller beskrivningar av typiska faser i ett projekt, de uppgifter som ingår i varje fas och en förklaring av sambanden mellan dessa uppgifter.
Fas 1: Affärsförståelse
Det första steget i CRISP-DM-processen är att förstå vad du vill åstadkomma ur ett affärsperspektiv. Din organisation kan ha konkurrerande mål och begränsningar som måste vara ordentligt balanserade. Detta processskede syftar till att avslöja viktiga faktorer som påverkar projektets resultat. Att försumma detta steg kan innebära att mycket ansträngning läggs på att ta fram rätt svar på fel frågor.
Vilka är de önskade resultaten av projektet?
Bedöm nuläget
romersk siffra 1 till 100
Detta involverar mer detaljerad faktainsamling om resurser, begränsningar, antaganden och andra faktorer som du måste tänka på när du bestämmer ditt dataanalysmål och projektplan.
- Personal (affärsexperter, dataexperter, teknisk support, datautvinningsexperter)
- Data (fasta utdrag, tillgång till live-, lager- eller driftsdata)
- Datorresurser (hårdvaruplattformar)
- Programvara (verktyg för datautvinning, annan relevant programvara)
- En ordlista med relevant affärsterminologi utgör en del av den affärsförståelse som är tillgänglig för projektet. Att konstruera denna ordlista är en användbar 'kunskapsframkallande' och utbildningsövning.
- En ordlista med datautvinningsterminologi illustreras med exempel som är relevanta för affärsproblemet.
Bestäm mål för datautvinning
Ett affärsmål anger mål i affärsterminologi. Ett data mining-mål anger projektmål i tekniska termer. Till exempel kan affärsmålet vara Öka katalogförsäljningen till befintliga kunder. Ett datautvinningsmål kan vara att förutsäga hur många widgets en kund kommer att köpa, med tanke på deras inköp under de senaste tre åren, demografisk information (ålder, lön, stad, etc.) och artikelns pris.
Ta fram projektplan
git push-kommando
Beskriv den avsedda planen för att uppnå datautvinningsmålen och affärsmålen. Din plan bör specificera de steg som ska utföras under resten av projektet, inklusive det första urvalet av verktyg och tekniker.
1. Projektplan: Lista de steg som ska utföras i projektet, med deras varaktighet, resurser som krävs, ingångar, utdata och beroenden. Om möjligt, försök att tydliggöra de storskaliga iterationerna i datautvinningsprocessen, till exempel upprepningar av modellerings- och utvärderingsfaserna.
Som en del av projektplanen är det viktigt att analysera beroenden mellan tidsplaner och risker. Markera resultaten av dessa analyser explicit i projektplanen, helst med åtgärder och rekommendationer om riskerna visar sig. Bestäm vilken utvärderingsstrategi som ska användas i utvärderingsfasen.
Din projektplan kommer att vara ett dynamiskt dokument. I slutet av varje fas kommer du att granska framsteg och prestationer och uppdatera projektplanen därefter. Specifika granskningspunkter för dessa uppdateringar bör vara en del av projektplanen.
2. Inledande bedömning av verktyg och tekniker: I slutet av den första fasen bör du göra en första bedömning av verktyg och tekniker. Till exempel väljer du ett datautvinningsverktyg som stöder olika metoder för olika stadier av processen. Det är viktigt att utvärdera verktyg och tekniker tidigt i processen eftersom valet av verktyg och tekniker kan påverka hela projektet.
Fas 2: Dataförståelse
Den andra fasen av CRISP-DM-processen kräver att du skaffar data som listas i projektresurserna. Denna initiala insamling inkluderar dataladdning om detta är nödvändigt för att förstå data. Till exempel, om du använder ett specifikt verktyg för dataförståelse, är det helt vettigt att ladda din data i det här verktyget. Om du skaffar flera datakällor måste du överväga hur och när du ska integrera dessa.
Beskriv data
Undersök 'brutto' eller 'ytegenskaper' hos de insamlade data och rapportera om resultaten.
Utforska data
Under detta skede kommer du att ta itu med datautvinningsfrågor med hjälp av fråge-, datavisualisering och rapporteringstekniker. Dessa kan inkludera:
- Fördelning av nyckelattribut
- Relationer mellan par eller ett litet antal attribut
- Resultat av enkla aggregationer
- Egenskaper hos betydande delpopulationer
- Enkla statistiska analyser
Dessa analyser kan direkt adressera dina datautvinningsmål. De kan bidra till eller förfina databeskrivningen och kvalitetsrapporterna och ingå i omvandlingen och andra dataförberedande steg som behövs för ytterligare analys.
middag vs kvällsmat
Verifiera datakvaliteten
Undersök kvaliteten på uppgifterna och ta itu med frågor som:
- Är uppgifterna fullständiga eller täcker de alla de fall som krävs?
- Stämmer det, eller innehåller det fel, och om det finns fel, hur vanliga är de?
- Saknas det värden i datan? Om så är fallet, hur representeras de, var förekommer de och hur vanliga är de?
Datakvalitetsrapport
Lista resultaten av verifieringen av datakvaliteten. Om det finns kvalitetsproblem, föreslå möjliga lösningar. Lösningar på datakvalitetsproblem beror i allmänhet mycket på data och affärskunskap.
Fas 3: Dataförberedelse
I denna projektfas bestämmer du dig för vilken data du ska använda för analys. Kriterierna du kan använda för att fatta det här beslutet inkluderar datas relevans för dina datautvinningsmål, datakvaliteten och tekniska begränsningar som gränser för datavolym eller datatyper.
Rensa dina data
Den här uppgiften innebär att höja datakvaliteten till den nivå som krävs av analysteknikerna som du har valt. Detta kan innebära att välja rena delmängder av data, infogning av lämpliga standardvärden eller mer ambitiösa tekniker som att uppskatta saknade data genom modellering.
Konstruera nödvändig data
Den här uppgiften inkluderar konstruktiva dataförberedande operationer som att producera härledda attribut, helt nya poster eller transformerade värden för befintliga attribut.
Integrera data
Dessa metoder kombinerar information från flera databaser, tabeller eller poster för att skapa nya poster eller värden.
Fas 4: Modellering
Välj modelleringsteknik: Som första steg väljer du den grundläggande modelleringstekniken du ska använda. Även om du kanske redan har valt ett verktyg under affärsförståelsefasen, kommer du i detta skede att välja den specifika modelleringstekniken, t.ex. beslutsträdsbyggande med C5.0 eller generering av neuralt nätverk med bakåtförökning. Om flera tekniker används, utför denna uppgift separat för varje teknik.
Skapa testdesign
Innan du bygger en modell måste du skapa en procedur eller mekanism för att testa modellens kvalitet och giltighet. Till exempel i övervakade datautvinningsuppgifter som klassificering är det vanligt att använda felfrekvenser som kvalitetsmått för datautvinningsmodeller. Därför delar du vanligtvis upp datauppsättningen i tåg- och testuppsättningar, bygger modellen på tåguppsättningen och uppskattar dess kvalitet på den separata testuppsättningen.
hur stor är min skärm
Bygg modell
Kör modelleringsverktyget på den förberedda datamängden för att skapa en eller flera modeller.
Bedöm modell
Tolka modellerna enligt din domänkunskap, framgångskriterier för datautvinning och önskad testdesign. Bedöm framgången med tillämpningen av modellerings- och upptäcktstekniker och kontakta sedan affärsanalytiker och domänexperter senare för att diskutera datautvinningsresultaten i affärssammanhang. Denna uppgift tar bara hänsyn till modeller, medan utvärderingsfasen även tar hänsyn till alla andra resultat som producerats under projektet.
I detta skede bör du rangordna modellerna och bedöma dem enligt utvärderingskriterierna. Du bör överväga affärsmålen och framgångskriterierna så långt du kan här. I de flesta datautvinningsprojekt tillämpas en enskild teknik mer än en gång, och datautvinningsresultat genereras med flera olika tekniker.
Fas 5: Utvärdering
Utvärdera dina resultat: Tidigare utvärderingssteg handlade om faktorer som modellens noggrannhet och allmängiltighet. Under det här steget kommer du att bedöma i vilken grad modellen uppfyller dina affärsmål och försöka avgöra om det finns något affärsmässigt skäl till att denna modell är bristfällig. Ett annat alternativ är att testa modellen på testapplikationer i den verkliga applikationen om tids- och budgetbegränsningar tillåter. Utvärderingsfasen innebär också att utvärdera eventuella andra datautvinningsresultat som du har genererat. Datautvinningsresultat involverar modeller som nödvändigtvis är relaterade till de ursprungliga affärsmålen och alla andra resultat som inte nödvändigtvis är relaterade till de ursprungliga affärsmålen men som också kan avslöja ytterligare utmaningar, information eller tips för framtida riktningar.
Granskningsprocessen
Vid denna tidpunkt verkar de resulterande modellerna vara tillfredsställande och tillfredsställa affärsbehov. Det är nu lämpligt för dig att göra en mer grundlig granskning av datautvinningsarbetet för att avgöra om det finns en viktig faktor eller uppgift som på något sätt har förbisetts. Denna granskning omfattar även kvalitetssäkringsfrågor. Till exempel: byggde vi modellen korrekt? Använde vi bara de attribut som vi får använda och som är tillgängliga för framtida analyser?
Bestäm nästa steg
Du bestämmer nu hur du ska gå tillväga beroende på bedömningsresultaten och processöversynen. Avslutar du det här projektet och går vidare till driftsättning, initierar ytterligare iterationer eller skapar du nya datautvinningsprojekt? Du bör också inventera dina återstående resurser och budget, vilket kan påverka dina beslut.
Fas 6: Implementering
Planera implementering: I implementeringsstadiet tar du dina utvärderingsresultat och bestämmer en strategi för deras implementering. Om en allmän procedur har identifierats för att skapa den/de relevanta modellen/modellerna, dokumenteras denna procedur här för senare distribution. Det är vettigt att överväga sätten och medlen för implementering under affärsförståelsefasen eftersom implementeringen är avgörande för projektets framgång. Det är här prediktiv analys hjälper till att förbättra ditt företags operativa sida.
Planera övervakning och underhåll
Övervakning och underhåll är viktiga frågor om datautvinningsresultatet blir en del av den dagliga verksamheten och dess miljö. Den noggranna förberedelsen av en underhållsstrategi hjälper till att undvika onödigt långa perioder av felaktig användning av datautvinningsresultat. Projektet behöver en detaljerad övervakningsprocessplan för att övervaka distributionen av datautvinningsresultaten. Denna plan tar hänsyn till den specifika typen av distribution.
Ta fram slutrapport
I slutet av projektet kommer du att skriva en slutrapport. Beroende på utbyggnadsplanen kan denna rapport endast vara en sammanfattning av projektet och dess erfarenheter (om de inte redan har dokumenterats som en pågående aktivitet), eller så kan den vara en slutlig och heltäckande presentation av datautvinningsresultatet.
Granska projektet
character.compare java
Bedöm vad som gick rätt och fel, vad som gjordes bra och vad som behöver förbättras.