logo

Vad är CRISP i Data Mining?

CRISP-DM står för den branschövergripande standardprocessen för datautvinning. CRISP-DM-metoden ger ett strukturerat tillvägagångssätt för att planera ett datautvinningsprojekt. Det är en robust och väl beprövad metodik. Vi gör inte anspråk på något ägande över det. Vi uppfann det inte. Vi är en omvandlare av dess kraftfulla praktiska, flexibilitet och användbarhet när vi använder analyser för att lösa affärsproblem. Det är den gyllene tråden som löper genom nästan varje kundmöte.

Denna modell är ett idealiserat händelseförlopp. I praktiken kan många uppgifter utföras i en annan ordning, och det kommer ofta att vara nödvändigt att gå tillbaka till tidigare uppgifter och upprepa vissa åtgärder. Modellen försöker inte fånga alla möjliga vägar genom datautvinningsprocessen.

Hur hjälper CRISP?

CRISP DM tillhandahåller en färdplan, den ger dig bästa praxis och den ger strukturer för bättre och snabbare resultat av att använda datautvinning, så det är så det hjälper företaget att följa med när man planerar och genomför ett datautvinningsprojekt.

Faser av CRISP-DM

CRISP-DM ger en översikt över datamininglivscykeln som processmodell. Livscykelmodellen består av sex faser, med pilar som indikerar de viktigaste och mest frekventa beroenden mellan faserna. Sekvensen av faserna är inte strikt. Och de flesta projekt flyttar fram och tillbaka mellan faserna efter behov. CRISP-DM-modellen är flexibel och kan enkelt anpassas.

Till exempel, om din organisation strävar efter att upptäcka penningtvätt, kommer du sannolikt att sålla igenom stora mängder data utan ett specifikt modellmål. Istället för modellering kommer ditt arbete att fokusera på datautforskning och visualisering för att avslöja misstänkta mönster i finansiell data. CRISP-DM låter dig skapa en datautvinningsmodell som passar dina behov.

Den innehåller beskrivningar av typiska faser i ett projekt, de uppgifter som ingår i varje fas och en förklaring av sambanden mellan dessa uppgifter.

Vad är CRISP i Data Mining

Fas 1: Affärsförståelse

Det första steget i CRISP-DM-processen är att förstå vad du vill åstadkomma ur ett affärsperspektiv. Din organisation kan ha konkurrerande mål och begränsningar som måste vara ordentligt balanserade. Detta processskede syftar till att avslöja viktiga faktorer som påverkar projektets resultat. Att försumma detta steg kan innebära att mycket ansträngning läggs på att ta fram rätt svar på fel frågor.

Vilka är de önskade resultaten av projektet?

    Sätt mål:Beskriv ditt primära mål ur ett affärsperspektiv. Det kan också finnas andra relaterade frågor som du skulle vilja nämna. Ditt primära mål kan till exempel vara att behålla nuvarande kunder genom att förutsäga när de är benägna att flytta till en konkurrent.Ta fram projektplan:Beskriv planen för att uppnå datautvinning och affärsmål. Planen bör specificera de steg som ska utföras under resten av projektet, inklusive det första urvalet av verktyg och tekniker.Kriterier för affärsframgång:Här lägger du upp de kriterier du ska använda för att avgöra om projektet har varit framgångsrikt ur affärsmässig synvinkel. Dessa bör helst vara specifika och mätbara, till exempel för att reducera kundbeat till en viss nivå. Men ibland kan det vara nödvändigt att ha mer subjektiva kriterier, som att ge användbara insikter om relationerna.

Bedöm nuläget

romersk siffra 1 till 100

Detta involverar mer detaljerad faktainsamling om resurser, begränsningar, antaganden och andra faktorer som du måste tänka på när du bestämmer ditt dataanalysmål och projektplan.

    Inventering av resurser:Lista de resurser som är tillgängliga för projektet, inklusive:
    • Personal (affärsexperter, dataexperter, teknisk support, datautvinningsexperter)
    • Data (fasta utdrag, tillgång till live-, lager- eller driftsdata)
    • Datorresurser (hårdvaruplattformar)
    • Programvara (verktyg för datautvinning, annan relevant programvara)
    Krav, antaganden och begränsningar:Lista alla krav för projektet, inklusive schemat för slutförandet, den erforderliga begripligheten och kvaliteten på resultaten, och eventuella datasäkerhetsproblem och juridiska frågor. Se till att du får använda uppgifterna. Lista de antaganden som projektet gjort. Dessa kan vara antaganden om data som kan verifieras under datautvinning men kan också inkludera icke verifierbara antaganden om verksamheten relaterad till projektet. Det är viktigt att lista de senare om de påverkar resultatens validitet. Lista begränsningarna för projektet. Dessa kan vara begränsningar för tillgången på resurser men kan också innefatta tekniska begränsningar såsom storleken på datamängden som det är praktiskt att använda för modellering.Risker och oförutsedda händelser:Lista de risker eller händelser som kan försena projektet eller få det att misslyckas. Lista motsvarande beredskapsplaner, som vilka åtgärder kommer du att vidta om dessa risker eller händelser inträffar?Terminologi:Sammanställ en ordlista med terminologi som är relevant för projektet. Detta kommer vanligtvis att ha två komponenter:
    • En ordlista med relevant affärsterminologi utgör en del av den affärsförståelse som är tillgänglig för projektet. Att konstruera denna ordlista är en användbar 'kunskapsframkallande' och utbildningsövning.
    • En ordlista med datautvinningsterminologi illustreras med exempel som är relevanta för affärsproblemet.
    Kostnader och fördelar:Konstruera en kostnads-nyttoanalys för projektet, som jämför projektets kostnader med de potentiella fördelarna för verksamheten om det blir framgångsrikt. Denna jämförelse bör vara så specifik som möjligt. Till exempel bör du använda ekonomiska åtgärder i en kommersiell situation.

Bestäm mål för datautvinning

Ett affärsmål anger mål i affärsterminologi. Ett data mining-mål anger projektmål i tekniska termer. Till exempel kan affärsmålet vara Öka katalogförsäljningen till befintliga kunder. Ett datautvinningsmål kan vara att förutsäga hur många widgets en kund kommer att köpa, med tanke på deras inköp under de senaste tre åren, demografisk information (ålder, lön, stad, etc.) och artikelns pris.

    Kriterier för affärsframgång:Den beskriver de avsedda resultaten av projektet som gör det möjligt att uppnå affärsmålen.Framgångskriterier för datautvinning:Den definierar kriterierna för ett framgångsrikt projektresultat. Till exempel en viss nivå av prediktiv noggrannhet eller en köpbenägenhetsprofil med en given grad av 'lyft'. Precis som med affärsframgångskriterier kan det vara nödvändigt att beskriva dessa i subjektiva termer, i vilket fall den eller de som gör den subjektiva bedömningen bör identifieras.

Ta fram projektplan

git push-kommando

Beskriv den avsedda planen för att uppnå datautvinningsmålen och affärsmålen. Din plan bör specificera de steg som ska utföras under resten av projektet, inklusive det första urvalet av verktyg och tekniker.

1. Projektplan: Lista de steg som ska utföras i projektet, med deras varaktighet, resurser som krävs, ingångar, utdata och beroenden. Om möjligt, försök att tydliggöra de storskaliga iterationerna i datautvinningsprocessen, till exempel upprepningar av modellerings- och utvärderingsfaserna.

Som en del av projektplanen är det viktigt att analysera beroenden mellan tidsplaner och risker. Markera resultaten av dessa analyser explicit i projektplanen, helst med åtgärder och rekommendationer om riskerna visar sig. Bestäm vilken utvärderingsstrategi som ska användas i utvärderingsfasen.

Din projektplan kommer att vara ett dynamiskt dokument. I slutet av varje fas kommer du att granska framsteg och prestationer och uppdatera projektplanen därefter. Specifika granskningspunkter för dessa uppdateringar bör vara en del av projektplanen.

2. Inledande bedömning av verktyg och tekniker: I slutet av den första fasen bör du göra en första bedömning av verktyg och tekniker. Till exempel väljer du ett datautvinningsverktyg som stöder olika metoder för olika stadier av processen. Det är viktigt att utvärdera verktyg och tekniker tidigt i processen eftersom valet av verktyg och tekniker kan påverka hela projektet.

Fas 2: Dataförståelse

Den andra fasen av CRISP-DM-processen kräver att du skaffar data som listas i projektresurserna. Denna initiala insamling inkluderar dataladdning om detta är nödvändigt för att förstå data. Till exempel, om du använder ett specifikt verktyg för dataförståelse, är det helt vettigt att ladda din data i det här verktyget. Om du skaffar flera datakällor måste du överväga hur och när du ska integrera dessa.

    Initial datainsamlingsrapport:Lista de inhämtade datakällorna, deras platser, metoderna som använts för att skaffa dem och eventuella problem som uppstått. Registrera problem du stött på och eventuella lösningar som uppnåtts. Detta kommer att hjälpa till med framtida replikering av detta projekt och genomförandet av liknande framtida projekt.

Beskriv data

Undersök 'brutto' eller 'ytegenskaper' hos de insamlade data och rapportera om resultaten.

    Databeskrivningsrapport:Beskriv data som har inhämtats, inklusive dess format, dess kvantitet, fältens identiteter och eventuella andra ytegenskaper som har upptäckts. Utvärdera om de insamlade uppgifterna uppfyller dina krav.

Utforska data

Under detta skede kommer du att ta itu med datautvinningsfrågor med hjälp av fråge-, datavisualisering och rapporteringstekniker. Dessa kan inkludera:

  • Fördelning av nyckelattribut
  • Relationer mellan par eller ett litet antal attribut
  • Resultat av enkla aggregationer
  • Egenskaper hos betydande delpopulationer
  • Enkla statistiska analyser

Dessa analyser kan direkt adressera dina datautvinningsmål. De kan bidra till eller förfina databeskrivningen och kvalitetsrapporterna och ingå i omvandlingen och andra dataförberedande steg som behövs för ytterligare analys.

middag vs kvällsmat
    Datautforskningsrapport:Beskriv resultaten av din datautforskning, inklusive de första resultaten eller initiala hypotesen och deras inverkan på resten av projektet. Om det är lämpligt kan du inkludera grafer och plotter här för att indikera dataegenskaper som föreslår ytterligare undersökning av intressanta dataundergrupper.

Verifiera datakvaliteten

Undersök kvaliteten på uppgifterna och ta itu med frågor som:

  • Är uppgifterna fullständiga eller täcker de alla de fall som krävs?
  • Stämmer det, eller innehåller det fel, och om det finns fel, hur vanliga är de?
  • Saknas det värden i datan? Om så är fallet, hur representeras de, var förekommer de och hur vanliga är de?

Datakvalitetsrapport

Lista resultaten av verifieringen av datakvaliteten. Om det finns kvalitetsproblem, föreslå möjliga lösningar. Lösningar på datakvalitetsproblem beror i allmänhet mycket på data och affärskunskap.

Fas 3: Dataförberedelse

I denna projektfas bestämmer du dig för vilken data du ska använda för analys. Kriterierna du kan använda för att fatta det här beslutet inkluderar datas relevans för dina datautvinningsmål, datakvaliteten och tekniska begränsningar som gränser för datavolym eller datatyper.

    Skälen för inkludering/exkludering:Ange vilka uppgifter som ska inkluderas/uteslutas och skälen till dessa beslut.

Rensa dina data

Den här uppgiften innebär att höja datakvaliteten till den nivå som krävs av analysteknikerna som du har valt. Detta kan innebära att välja rena delmängder av data, infogning av lämpliga standardvärden eller mer ambitiösa tekniker som att uppskatta saknade data genom modellering.

    Datarensningsrapport:Beskriv vilka beslut och åtgärder du vidtog för att ta itu med datakvalitetsproblem. Tänk på eventuella datatransformationer som gjorts för rengöringsändamål och deras eventuella inverkan på analysresultaten.

Konstruera nödvändig data

Den här uppgiften inkluderar konstruktiva dataförberedande operationer som att producera härledda attribut, helt nya poster eller transformerade värden för befintliga attribut.

    Härledda attribut:Dessa är nya attribut konstruerade från ett eller flera befintliga attribut i samma post. Du kan till exempel använda variablerna längd och bredd för att beräkna en ny areavariabel.Genererade poster:Här beskriver du skapandet av eventuella helt nya skivor. Till exempel kan du behöva skapa poster för kunder som inte har köpt under det senaste året. Det fanns ingen anledning att ha sådana register i rådata. Ändå kan det vara vettigt att representera att vissa kunder uttryckligen gjorde nollköp i modelleringssyfte.

Integrera data

Dessa metoder kombinerar information från flera databaser, tabeller eller poster för att skapa nya poster eller värden.

    Sammanslagna data:Sammanfoga tabeller avser att sammanfoga två eller flera tabeller med olika information om samma objekt. Till exempel kan en detaljhandelskedja ha en tabell med information om varje butiks allmänna egenskaper (t.ex. golvyta, typ av galleria), en annan tabell med sammanfattade försäljningsdata (t.ex. vinst, procentuell förändring av försäljningen från föregående år) och en annan med information om demografin i det omgivande området. Var och en av dessa tabeller innehåller en post för varje butik. Dessa tabeller kan slås samman till en ny tabell med en post för varje butik, genom att kombinera fält från källtabellerna.Sammanslagningar:Aggregeringar är operationer där nya värden beräknas genom att sammanfatta information från flera poster eller tabeller. Till exempel konvertera en tabell över kundköp där en post för varje köp till en ny tabell och en post för varje kund, med fält som antal inköp, genomsnittligt köpbelopp, procent av beställningar som debiteras kreditkort, procent av varor under befordran etc.

Fas 4: Modellering

Välj modelleringsteknik: Som första steg väljer du den grundläggande modelleringstekniken du ska använda. Även om du kanske redan har valt ett verktyg under affärsförståelsefasen, kommer du i detta skede att välja den specifika modelleringstekniken, t.ex. beslutsträdsbyggande med C5.0 eller generering av neuralt nätverk med bakåtförökning. Om flera tekniker används, utför denna uppgift separat för varje teknik.

    Modelleringsteknik:Dokumentera den grundläggande modelleringstekniken som ska användas.Modelleringsantaganden:Många modelleringstekniker gör specifika antaganden om data, till exempel att alla attribut har enhetliga fördelningar, att inga saknade värden är tillåtna, att klassattributet måste vara symboliskt etc. Registrera alla antaganden som gjorts.

Skapa testdesign

Innan du bygger en modell måste du skapa en procedur eller mekanism för att testa modellens kvalitet och giltighet. Till exempel i övervakade datautvinningsuppgifter som klassificering är det vanligt att använda felfrekvenser som kvalitetsmått för datautvinningsmodeller. Därför delar du vanligtvis upp datauppsättningen i tåg- och testuppsättningar, bygger modellen på tåguppsättningen och uppskattar dess kvalitet på den separata testuppsättningen.

hur stor är min skärm
    Testdesign:Beskriv den tänkta planen för utbildning, testning och utvärdering av modellerna. En primär komponent i planen är att bestämma hur den tillgängliga datauppsättningen ska delas upp i utbildnings-, test- och valideringsdatauppsättningar.

Bygg modell

Kör modelleringsverktyget på den förberedda datamängden för att skapa en eller flera modeller.

    Parameterinställningar:Med alla modelleringsverktyg finns det ofta ett stort antal parametrar som kan justeras. Lista parametrarna, deras värden och skälen till att välja parameterinställningar.Modeller:Det här är modellerna som produceras av modelleringsverktyget, inte en rapport om modellerna.Modellbeskrivningar:Beskriv de resulterande modellerna, rapportera om tolkningen av modellerna och dokumentera eventuella svårigheter med deras betydelser.

Bedöm modell

Tolka modellerna enligt din domänkunskap, framgångskriterier för datautvinning och önskad testdesign. Bedöm framgången med tillämpningen av modellerings- och upptäcktstekniker och kontakta sedan affärsanalytiker och domänexperter senare för att diskutera datautvinningsresultaten i affärssammanhang. Denna uppgift tar bara hänsyn till modeller, medan utvärderingsfasen även tar hänsyn till alla andra resultat som producerats under projektet.

I detta skede bör du rangordna modellerna och bedöma dem enligt utvärderingskriterierna. Du bör överväga affärsmålen och framgångskriterierna så långt du kan här. I de flesta datautvinningsprojekt tillämpas en enskild teknik mer än en gång, och datautvinningsresultat genereras med flera olika tekniker.

    Modellbedömning:Sammanfattar resultaten av denna uppgift, listar egenskaperna hos dina genererade modeller (t.ex. i termer av noggrannhet) och rangordna deras kvalitet med varandra.Reviderade parameterinställningar:Revidera dem enligt modellbedömningen och justera dem för nästa modelleringskörning. Iterera modellbyggande och bedömning tills du är övertygad om att du har hittat den eller de bästa modellen. Dokumentera alla sådana revideringar och bedömningar.

Fas 5: Utvärdering

Utvärdera dina resultat: Tidigare utvärderingssteg handlade om faktorer som modellens noggrannhet och allmängiltighet. Under det här steget kommer du att bedöma i vilken grad modellen uppfyller dina affärsmål och försöka avgöra om det finns något affärsmässigt skäl till att denna modell är bristfällig. Ett annat alternativ är att testa modellen på testapplikationer i den verkliga applikationen om tids- och budgetbegränsningar tillåter. Utvärderingsfasen innebär också att utvärdera eventuella andra datautvinningsresultat som du har genererat. Datautvinningsresultat involverar modeller som nödvändigtvis är relaterade till de ursprungliga affärsmålen och alla andra resultat som inte nödvändigtvis är relaterade till de ursprungliga affärsmålen men som också kan avslöja ytterligare utmaningar, information eller tips för framtida riktningar.

    Bedömning av datautvinningsresultat:Sammanfatta bedömningsresultat i affärsframgångskriterier, inklusive ett slutgiltigt uttalande om huruvida projektet redan uppfyller de ursprungliga affärsmålen.Godkända modeller:Efter att ha bedömt modeller till affärsframgångskriterier blir de genererade modellerna som uppfyller de valda kriterierna de godkända modellerna.

Granskningsprocessen

Vid denna tidpunkt verkar de resulterande modellerna vara tillfredsställande och tillfredsställa affärsbehov. Det är nu lämpligt för dig att göra en mer grundlig granskning av datautvinningsarbetet för att avgöra om det finns en viktig faktor eller uppgift som på något sätt har förbisetts. Denna granskning omfattar även kvalitetssäkringsfrågor. Till exempel: byggde vi modellen korrekt? Använde vi bara de attribut som vi får använda och som är tillgängliga för framtida analyser?

    Genomgång av processen:Sammanfatta processöversynen och lyft fram aktiviteter som har missats och de som bör upprepas.

Bestäm nästa steg

Du bestämmer nu hur du ska gå tillväga beroende på bedömningsresultaten och processöversynen. Avslutar du det här projektet och går vidare till driftsättning, initierar ytterligare iterationer eller skapar du nya datautvinningsprojekt? Du bör också inventera dina återstående resurser och budget, vilket kan påverka dina beslut.

    Lista över möjliga åtgärder:Lista eventuella ytterligare åtgärder och skälen för och emot varje alternativ.Beslut:Beskriv beslutet om hur man ska gå vidare, tillsammans med motiveringen.

Fas 6: Implementering

Planera implementering: I implementeringsstadiet tar du dina utvärderingsresultat och bestämmer en strategi för deras implementering. Om en allmän procedur har identifierats för att skapa den/de relevanta modellen/modellerna, dokumenteras denna procedur här för senare distribution. Det är vettigt att överväga sätten och medlen för implementering under affärsförståelsefasen eftersom implementeringen är avgörande för projektets framgång. Det är här prediktiv analys hjälper till att förbättra ditt företags operativa sida.

    Implementeringsplan:Sammanfatta din distributionsstrategi, inklusive nödvändiga steg och hur du utför dem.

Planera övervakning och underhåll

Övervakning och underhåll är viktiga frågor om datautvinningsresultatet blir en del av den dagliga verksamheten och dess miljö. Den noggranna förberedelsen av en underhållsstrategi hjälper till att undvika onödigt långa perioder av felaktig användning av datautvinningsresultat. Projektet behöver en detaljerad övervakningsprocessplan för att övervaka distributionen av datautvinningsresultaten. Denna plan tar hänsyn till den specifika typen av distribution.

    Övervakning och underhållsplan:Sammanfatta övervaknings- och underhållsstrategin, inklusive nödvändiga steg och hur man utför dem.

Ta fram slutrapport

I slutet av projektet kommer du att skriva en slutrapport. Beroende på utbyggnadsplanen kan denna rapport endast vara en sammanfattning av projektet och dess erfarenheter (om de inte redan har dokumenterats som en pågående aktivitet), eller så kan den vara en slutlig och heltäckande presentation av datautvinningsresultatet.

    Slutrapport:Detta är den slutliga skriftliga rapporten från datautvinningsarbetet. Den inkluderar alla tidigare resultat, sammanfattningar och organisering av resultaten.Sista presentation:Det blir ofta ett möte efter projektet där resultatet presenteras för kunden.

Granska projektet

character.compare java

Bedöm vad som gick rätt och fel, vad som gjordes bra och vad som behöver förbättras.

    Erfarenhetsdokumentation:Sammanfatta viktiga erfarenheter som vunnits under projektet. Till exempel kan den här dokumentationen innehålla alla fallgropar du stött på, vilseledande tillvägagångssätt eller tips för att välja de bäst lämpade datautvinningsteknikerna i liknande situationer. I idealiska projekt omfattar erfarenhetsdokumentationen även eventuella rapporter som enskilda projektmedlemmar har skrivit under tidigare faser av projektet.