CRISP-DM reiškia įvairių pramonės šakų standartinį duomenų gavybos procesą. CRISP-DM metodika suteikia struktūrinį duomenų gavybos projekto planavimo metodą. Tai tvirta ir gerai patikrinta metodika. Mes nepretenduojame į jokias nuosavybės teises. Mes to nesugalvojome. Mes keičiame jos galingą praktiškumą, lankstumą ir naudingumą, kai naudojame analizę verslo problemoms spręsti. Tai auksinė gija, kuri eina per beveik kiekvieną klientų susitikimą.
Šis modelis yra idealizuota įvykių seka. Praktiškai daug užduočių gali būti atliekama skirtinga tvarka, todėl dažnai reikės grįžti prie ankstesnių užduočių ir pakartoti tam tikrus veiksmus. Modelis nesistengia užfiksuoti visų galimų maršrutų per duomenų gavybos procesą.
Kaip CRISP padeda?
CRISP DM pateikia gaires, geriausios praktikos pavyzdžius ir struktūras geresniems ir greitesniems duomenų gavybos rezultatams, taigi, tai padeda verslui vadovautis planuojant ir vykdant duomenų gavybos projektą.
CRISP-DM fazės
CRISP-DM pateikia duomenų gavybos gyvavimo ciklo apžvalgą kaip proceso modelį. Gyvenimo ciklo modelį sudaro šešios fazės, o rodyklės rodo svarbiausias ir dažniausias fazių priklausomybes. Fazių seka nėra griežta. Ir dauguma projektų, jei reikia, juda pirmyn ir atgal tarp etapų. CRISP-DM modelis yra lankstus ir lengvai pritaikomas.
Pvz., jei jūsų organizacija siekia aptikti pinigų plovimą, greičiausiai atsijosite didelius duomenų kiekius neturėdami konkretaus modeliavimo tikslo. Užuot modeliavęs, jūsų darbas bus sutelktas į duomenų tyrimą ir vizualizavimą, kad atskleistumėte įtartinus finansinių duomenų modelius. CRISP-DM leidžia sukurti duomenų gavybos modelį, atitinkantį jūsų poreikius.
Jame aprašomi tipiniai projekto etapai, su kiekvienu etapu susijusios užduotys ir paaiškinamas šių užduočių ryšys.
1 etapas: verslo supratimas
Pirmasis CRISP-DM proceso etapas yra suprasti, ką norite pasiekti verslo požiūriu. Jūsų organizacija gali turėti konkuruojančių tikslų ir apribojimų, kurie turi būti tinkamai subalansuoti. Šiuo proceso etapu siekiama atskleisti svarbius veiksnius, turinčius įtakos projekto rezultatui. Šio žingsnio nepaisymas gali reikšti, kad reikia įdėti daug pastangų, kad būtų pateikti teisingi atsakymai į neteisingus klausimus.
Kokie yra pageidaujami projekto rezultatai?
Įvertinkite esamą situaciją
pašto užsakymo pervežimas
Tai apima išsamesnį faktų apie išteklius, apribojimus, prielaidas ir kitus veiksnius, į kuriuos turėsite atsižvelgti nustatydami duomenų analizės tikslą ir projekto planą, tyrimą.
- Personalas (verslo ekspertai, duomenų ekspertai, techninė pagalba, duomenų gavybos ekspertai)
- Duomenys (fiksuoti išrašai, prieiga prie tiesioginių, sandėliuojamų ar veiklos duomenų)
- Skaičiavimo ištekliai (aparatinės įrangos platformos)
- Programinė įranga (duomenų gavybos įrankiai, kita susijusi programinė įranga)
- Atitinkamos verslo terminijos žodynėlis yra projekto verslo supratimo dalis. Šio žodyno sudarymas yra naudinga „žinių įgijimo“ ir švietimo užduotis.
- Duomenų gavybos terminų žodynėlis iliustruotas su verslo problema susijusiais pavyzdžiais.
Nustatykite duomenų gavybos tikslus
Verslo tikslas nurodo tikslus verslo terminologijoje. Duomenų gavybos tikslas nurodo projekto tikslus technine prasme. Pavyzdžiui, verslo tikslas gali būti padidinti katalogų pardavimą esamiems klientams. Duomenų gavybos tikslas gali būti nuspėti, kiek valdiklių pirks klientas, atsižvelgdamas į jo pirkinius per pastaruosius trejus metus, demografinę informaciją (amžių, atlyginimą, miestą ir kt.) ir prekės kainą.
Sukurti projekto planą
Apibūdinkite numatytą planą duomenų gavybos tikslams ir verslo tikslams pasiekti. Jūsų plane turėtų būti nurodyti veiksmai, kuriuos reikia atlikti per likusį projekto laiką, įskaitant pradinį įrankių ir metodų pasirinkimą.
1. Projekto planas: Išvardykite projekto etapus, kurių trukmė, reikalingi ištekliai, įvestis, išėjimai ir priklausomybės. Jei įmanoma, pabandykite aiškiai išreikšti didelio masto iteracijas duomenų gavybos procese, pavyzdžiui, modeliavimo ir vertinimo fazių kartojimus.
Kaip projekto plano dalį, svarbu išanalizuoti laiko grafikų ir rizikos priklausomybes. Projekto plane aiškiai pažymėkite šių analizių rezultatus, geriausia – nurodykite veiksmus ir rekomendacijas, jei pasireikštų rizika. Nuspręskite, kokia vertinimo strategija bus naudojama vertinimo etape.
Jūsų projekto planas bus dinamiškas dokumentas. Kiekvieno etapo pabaigoje peržiūrėsite pažangą ir pasiekimus bei atitinkamai atnaujinsite projekto planą. Konkretūs šių atnaujinimų peržiūros punktai turėtų būti projekto plano dalis.
2. Pradinis priemonių ir metodų įvertinimas: Pirmojo etapo pabaigoje turėtumėte atlikti pirminį įrankių ir metodų įvertinimą. Pavyzdžiui, pasirenkate duomenų gavybos įrankį, kuris palaiko įvairius metodus įvairiuose proceso etapuose. Svarbu įvertinti priemones ir metodus proceso pradžioje, nes įrankių ir metodų pasirinkimas gali turėti įtakos visam projektui.
2 etapas: duomenų supratimas
Antrasis CRISP-DM proceso etapas reikalauja, kad gautumėte duomenis, išvardytus projekto šaltiniuose. Šis pradinis rinkimas apima duomenų įkėlimą, jei tai būtina norint suprasti duomenis. Pavyzdžiui, jei naudojate konkretų įrankį duomenims suprasti, visiškai prasminga įkelti duomenis į šį įrankį. Jei gausite kelis duomenų šaltinius, turite apsvarstyti, kaip ir kada juos integruosite.
kiek nulių 1 mlrd
Apibūdinkite duomenis
Ištirkite gautų duomenų „bendrąsias“ arba „paviršines“ savybes ir praneškite apie rezultatus.
Naršyti duomenis
Šiame etape spręsite duomenų gavybos klausimus naudodami užklausų, duomenų vizualizavimo ir ataskaitų teikimo būdus. Tai gali būti:
- Pagrindinių atributų paskirstymas
- Ryšiai tarp porų arba nedidelio atributų skaičiaus
- Paprastų agregacijų rezultatai
- Reikšmingų subpopuliacijų savybės
- Paprastos statistinės analizės
Šios analizės gali tiesiogiai pasiekti jūsų duomenų gavybos tikslus. Jie gali prisidėti prie duomenų aprašymo ir kokybės ataskaitų arba juos patobulinti ir įtraukti į transformavimo ir kitus duomenų rengimo veiksmus, reikalingus tolesnei analizei.
Patikrinkite duomenų kokybę
Ištirkite duomenų kokybę, spręsdami tokius klausimus kaip:
- Ar duomenys yra išsamūs, ar jie apima visus reikalingus atvejus?
- Ar tai teisinga, ar jame yra klaidų, o jei yra klaidų, kaip dažnai jos pasitaiko?
- Ar trūksta duomenų reikšmių? Jei taip, kaip jie vaizduojami, kur jie atsiranda ir kaip dažni?
Duomenų kokybės ataskaita
Išvardykite duomenų kokybės patikrinimo rezultatus. Jei kyla kokybės problemų, pasiūlykite galimus sprendimus. Duomenų kokybės problemų sprendimai paprastai labai priklauso nuo duomenų ir verslo žinių.
mašinraščio rodyklės funkcija
3 etapas: duomenų paruošimas
Šiame projekto etape jūs nuspręsite, kokius duomenis naudosite analizei. Kriterijai, kuriuos galite naudoti priimdami šį sprendimą, apima duomenų atitikimą duomenų gavybos tikslams, duomenų kokybę ir techninius apribojimus, pvz., duomenų apimties arba duomenų tipų apribojimus.
Išvalykite duomenis
Ši užduotis apima duomenų kokybės pakėlimą iki tokio lygio, kurio reikalauja jūsų pasirinktos analizės metodai. Tai gali apimti švarių duomenų pogrupių pasirinkimą, tinkamų numatytųjų parametrų įterpimą arba ambicingesnius metodus, pvz., trūkstamų duomenų įvertinimą modeliuojant.
Sukurkite reikiamus duomenis
Ši užduotis apima konstruktyvias duomenų paruošimo operacijas, pvz., išvestinių atributų, ištisų naujų įrašų arba esamų atributų transformuotų verčių kūrimą.
Integruoti duomenis
Šie metodai sujungia informaciją iš kelių duomenų bazių, lentelių ar įrašų, kad sukurtų naujus įrašus ar reikšmes.
4 etapas: modeliavimas
Pasirinkite modeliavimo techniką: pirmiausia turėsite pasirinkti pagrindinę modeliavimo techniką, kurią naudosite. Nors galbūt jau pasirinkote įrankį verslo supratimo etape, šiame etape pasirinksite konkrečią modeliavimo techniką, pvz., sprendimų medžio kūrimas su C5.0 arba neuroninio tinklo generavimas su atgaliniu sklidimu. Jei taikomi keli metodai, atlikite šią užduotį kiekvienai technikai atskirai.
Sukurkite testo dizainą
Prieš kurdami modelį, turite sukurti procedūrą arba mechanizmą, kad patikrintumėte modelio kokybę ir galiojimą. Pavyzdžiui, atliekant prižiūrimas duomenų gavybos užduotis, tokias kaip klasifikavimas, įprasta naudoti klaidų rodiklius kaip duomenų gavybos modelių kokybės priemones. Todėl paprastai duomenų rinkinį atskiriate į traukinių ir bandymų rinkinius, sukuriate modelį traukinio rinkinyje ir įvertinate jo kokybę pagal atskirą bandymų rinkinį.
Sukurti modelį
Paleiskite modeliavimo įrankį paruoštame duomenų rinkinyje, kad sukurtumėte vieną ar daugiau modelių.
Įvertinkite modelį
Interpretuokite modelius pagal savo srities žinias, duomenų gavybos sėkmės kriterijus ir norimą testo dizainą. Įvertinkite modeliavimo ir atradimo metodų taikymo sėkmę, o vėliau susisiekite su verslo analitikais ir srities ekspertais, kad aptartumėte duomenų gavybos rezultatus verslo kontekste. Šioje užduotyje atsižvelgiama tik į modelius, o vertinimo etape taip pat atsižvelgiama į visus kitus projekto metu gautus rezultatus.
ilgas į eilutę java
Šiame etape turėtumėte reitinguoti modelius ir įvertinti juos pagal vertinimo kriterijus. Čia, kiek galite, turėtumėte atsižvelgti į verslo tikslus ir sėkmės kriterijus. Daugumoje duomenų gavybos projektų viena technika taikoma daugiau nei vieną kartą, o duomenų gavybos rezultatai generuojami naudojant kelis skirtingus metodus.
5 etapas: įvertinimas
Įvertinkite savo rezultatus: Ankstesni vertinimo veiksmai buvo susiję su tokiais veiksniais kaip modelio tikslumas ir bendrumas. Atlikdami šį veiksmą įvertinsite, kiek modelis atitinka jūsų verslo tikslus, ir sieksite nustatyti, ar yra kokių nors verslo priežasčių, kodėl šis modelis yra netinkamas. Kita galimybė yra išbandyti modelį bandomojoje programoje realioje programoje, jei tai leidžia laiko ir biudžeto apribojimai. Vertinimo etapas taip pat apima visų kitų sugeneruotų duomenų gavybos rezultatų įvertinimą. Duomenų gavybos rezultatai apima modelius, kurie būtinai yra susiję su pradiniais verslo tikslais ir visomis kitomis išvadomis, kurios nebūtinai yra susijusios su pradiniais verslo tikslais, bet taip pat gali atskleisti papildomų iššūkių, informacijos ar užuominų dėl ateities krypčių.
Peržiūros procesas
Šiuo metu gauti modeliai atrodo patenkinami ir patenkina verslo poreikius. Dabar tikslinga atlikti nuodugnesnę duomenų gavybos peržiūrą, kad nustatytumėte, ar yra svarbus veiksnys arba užduotis, kuri buvo kažkaip nepastebėta. Ši apžvalga taip pat apima kokybės užtikrinimo klausimus. Pavyzdžiui: ar teisingai sukūrėme modelį? Ar naudojome tik tuos atributus, kuriuos mums leidžiama naudoti ir kurie yra prieinami būsimoms analizėms?
Nustatykite tolesnius veiksmus
Dabar jūs nuspręsite, kaip elgtis, atsižvelgdami į vertinimo rezultatus ir proceso peržiūrą. Ar baigiate šį projektą ir pereinate prie diegimo, inicijuojate tolesnes iteracijas ar nustatote naujus duomenų gavybos projektus? Taip pat turėtumėte įvertinti likusius išteklius ir biudžetą, kurie gali turėti įtakos jūsų sprendimams.
6 etapas: diegimas
Suplanuokite diegimą: diegimo etape atsižvelgsite į vertinimo rezultatus ir nustatysite jų diegimo strategiją. Jei buvo nustatyta bendra atitinkamo (-ų) modelio (-ių) kūrimo procedūra, ši procedūra dokumentuojama čia, kad ją būtų galima įdiegti vėliau. Tikslinga apsvarstyti diegimo būdus ir priemones verslo supratimo etape, nes diegimas yra labai svarbus projekto sėkmei. Čia nuspėjamoji analizė padeda pagerinti jūsų verslo veiklą.
Planuoti stebėjimą ir priežiūrą
Stebėjimas ir priežiūra yra svarbūs klausimai, jei duomenų gavybos rezultatas tampa kasdienio verslo ir jo aplinkos dalimi. Kruopštus priežiūros strategijos parengimas padeda išvengti bereikalingai ilgų netinkamo duomenų gavybos rezultatų panaudojimo laikotarpių. Projektui reikalingas išsamus stebėjimo proceso planas, kad būtų galima stebėti duomenų gavybos rezultato (-ų) diegimą. Šiame plane atsižvelgiama į konkretų diegimo tipą.
Parengti galutinę ataskaitą
Projekto pabaigoje parašysite galutinę ataskaitą. Atsižvelgiant į diegimo planą, ši ataskaita gali būti tik projekto ir jo patirties santrauka (jei ji dar nebuvo dokumentuota kaip vykdoma veikla), arba tai gali būti galutinis ir išsamus duomenų gavybos rezultato pristatymas.
Peržiūrėkite projektą
kokie mano kompiuterio ekrano matmenys
Įvertinkite, kas buvo gerai ir kas ne taip, kas buvo padaryta gerai ir ką reikia tobulinti.