CRISP-DM | Irene Burresi

Definizione

CRISP-DM (Cross-Industry Standard Process for Data Mining) è un modello di processo pubblicato nel 1999 da un consorzio di aziende europee (SPSS, NCR, Daimler-Chrysler, OHRA). Struttura i progetti di data mining e data science in 6 fasi cicliche: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment.

Nonostante l’età, CRISP-DM rimane il framework più adottato: survey KDnuggets 2014 riportava 43% di adozione, più del doppio di qualsiasi alternativa. La sua forza è essere industry-agnostic e tool-agnostic.

Le sei fasi

1. Business Understanding (15-20% del tempo)

Definire obiettivi business: cosa vuole ottenere l’organizzazione?
Tradurre in obiettivi analytics: quale domanda rispondere con i dati?
Valutare situazione: risorse disponibili, vincoli, rischi
Definire criteri di successo: metriche misurabili

2. Data Understanding (20-25% del tempo)

Collect initial data: identificare e accedere a data sources
Describe data: volume, formato, coverage, data dictionary
Explore data: statistiche descrittive, visualizzazioni, correlazioni
Verify data quality: completezza, accuratezza, outlier

3. Data Preparation (50-70% del tempo)

Select data: scegliere variabili e record rilevanti
Clean data: gestire missing values, outlier, duplicati
Construct data: feature engineering, aggregazioni, derive new features
Integrate data: merge da fonti diverse
Format data: trasformare per tool di modeling (normalization, encoding)

4. Modeling (10-20% del tempo)

Select modeling technique: regression, classification, clustering, etc.
Design test plan: train/validation/test split, cross-validation
Build model: addestrare algoritmi con parametri ottimali
Assess model: accuracy, precision, recall, F1, AUC, etc.
Iterate: tornare a data preparation se performance insufficiente

5. Evaluation (5-10% del tempo)

Evaluate results: il modello soddisfa criteri di successo business?
Review process: identificare step saltati o da rivedere
Determine next steps: deployment, nuove iterazioni, o project termination

6. Deployment (5-10% del tempo)

Plan deployment: come mettere in production (batch, real-time, embedded)
Plan monitoring: come monitorare performance e data drift
Produce final report: documentare findings e raccomandazioni
Review project: lessons learned per progetti futuri

Carattere iterativo

CRISP-DM non è waterfall. Le frecce nel diagramma circolare indicano che si può tornare a fasi precedenti:

Modeling rivela data quality issues → back to Data Preparation
Evaluation mostra modello insufficiente → back to Modeling o Data Understanding
Deployment scopre edge cases → back to Data Preparation o Business Understanding

Il ciclo esterno (da Deployment a Business Understanding) rappresenta progetti successivi che rifiniscono la soluzione.

Adattamenti moderni

CRISP-ML(Q): estensione del 2020 per production ML, aggiunge fasi di monitoring, maintenance, e quality assurance. Indirizza ML-specific concerns come model drift, retraining, e A/B testing.

Agile Data Science: integrazione di CRISP-DM con sprint Agile. Ogni sprint esegue mini-cicli CRISP-DM, consegnando incrementi di valore. Favorito in team che adottano DataOps.

TDSP (Team Data Science Process) di Microsoft: versione più prescrittiva con templates, checklists, e tooling Azure-specific. Enfasi su collaboration e reproducibility.

Considerazioni pratiche

Data Preparation domina: il 50-70% del tempo va in questa fase. Sottostimare questo effort è causa comune di project delays. Investire in data quality upfront (data governance, catalogs) riduce questo overhead.

Business Understanding è critica: progetti che partono da “abbiamo dati, troviamo insight” (data-first) falliscono più di quelli che partono da business problem. CRISP-DM forza a iniziare da business understanding.

Deployment è spesso trascurato: molti progetti terminano con notebook Jupyter o report PowerPoint. CRISP-DM ricorda che valore si realizza solo con deployment e adozione da parte di utenti.

Skill gap: CRISP-DM richiede competenze sia tecniche (modeling, data engineering) che business (domain knowledge, stakeholder management). I data scientist junior tendono a over-focus su modeling.

Alternative e confronti

SEMMA (Sample, Explore, Modify, Model, Assess): processo SAS, più tool-specific e meno enfasi su business understanding.

KDD (Knowledge Discovery in Databases): predecessore accademico di CRISP-DM, più teorico e meno pratico.

Agile/Lean: framework complementari. CRISP-DM definisce “cosa fare”, Agile definisce “come organizzare il team”. Molte org combinano CRISP-DM con sprint e retrospettive.

Fraintendimenti comuni

”CRISP-DM è waterfall”

No. Le fasi sono iterative. Si torna regolarmente a fasi precedenti quando si scoprono nuove informazioni. Il diagramma circolare rappresenta questa ciclicità.

”CRISP-DM è obsoleto, superato da Agile”

Falso. CRISP-DM e Agile operano a livelli diversi. CRISP-DM struttura il workflow analitico, Agile struttura team e delivery. Si complementano.

”CRISP-DM ignora production e monitoring”

No. La fase Deployment include esplicitamente monitoring e maintenance planning. Molti progetti trascurano questa fase, ma il framework la prevede.

”CRISP-DM è solo per data mining classico, non per deep learning”

Non vero. I principi (capire business, preparare dati, modellare, valutare, deployare) si applicano a qualsiasi approccio ML, incluso deep learning. CRISP-ML(Q) modernizza specifici dettagli.

Termini correlati

DataOps: metodologia per accelerare CRISP-DM tramite automazione
Agile Software Development: framework per organizzare sprint iterativi
LLM: approccio moderno basato su fondamenti di machine learning che CRISP-DM guida
DevOps: disciplina parallela per deployment software correlata a fase deployment di CRISP-DM

Fonti

Chapman, P. et al. (2000). CRISP-DM 1.0: Step-by-step data mining guide
Provost, F. & Fawcett, T. (2013). Data Science for Business
KDnuggets (2014). “Poll: What main methodology are you using for your analytics, data mining, or data science projects?”
Studer, S. et al. (2020). “Towards CRISP-ML(Q): A Machine Learning Process Model with Quality Assurance Methodology”