Definizione
CRISP-DM (Cross-Industry Standard Process for Data Mining) è un modello di processo pubblicato nel 1999 da un consorzio di aziende europee (SPSS, NCR, Daimler-Chrysler, OHRA). Struttura i progetti di data mining e data science in 6 fasi cicliche: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment.
Nonostante l’età, CRISP-DM rimane il framework più adottato: survey KDnuggets 2014 riportava 43% di adozione, più del doppio di qualsiasi alternativa. La sua forza è essere industry-agnostic e tool-agnostic.
Le sei fasi
1. Business Understanding (15-20% del tempo)
- Definire obiettivi business: cosa vuole ottenere l’organizzazione?
- Tradurre in obiettivi analytics: quale domanda rispondere con i dati?
- Valutare situazione: risorse disponibili, vincoli, rischi
- Definire criteri di successo: metriche misurabili
2. Data Understanding (20-25% del tempo)
- Collect initial data: identificare e accedere a data sources
- Describe data: volume, formato, coverage, data dictionary
- Explore data: statistiche descrittive, visualizzazioni, correlazioni
- Verify data quality: completezza, accuratezza, outlier
3. Data Preparation (50-70% del tempo)
- Select data: scegliere variabili e record rilevanti
- Clean data: gestire missing values, outlier, duplicati
- Construct data: feature engineering, aggregazioni, derive new features
- Integrate data: merge da fonti diverse
- Format data: trasformare per tool di modeling (normalization, encoding)
4. Modeling (10-20% del tempo)
- Select modeling technique: regression, classification, clustering, etc.
- Design test plan: train/validation/test split, cross-validation
- Build model: addestrare algoritmi con parametri ottimali
- Assess model: accuracy, precision, recall, F1, AUC, etc.
- Iterate: tornare a data preparation se performance insufficiente
5. Evaluation (5-10% del tempo)
- Evaluate results: il modello soddisfa criteri di successo business?
- Review process: identificare step saltati o da rivedere
- Determine next steps: deployment, nuove iterazioni, o project termination
6. Deployment (5-10% del tempo)
- Plan deployment: come mettere in production (batch, real-time, embedded)
- Plan monitoring: come monitorare performance e data drift
- Produce final report: documentare findings e raccomandazioni
- Review project: lessons learned per progetti futuri
Carattere iterativo
CRISP-DM non è waterfall. Le frecce nel diagramma circolare indicano che si può tornare a fasi precedenti:
- Modeling rivela data quality issues → back to Data Preparation
- Evaluation mostra modello insufficiente → back to Modeling o Data Understanding
- Deployment scopre edge cases → back to Data Preparation o Business Understanding
Il ciclo esterno (da Deployment a Business Understanding) rappresenta progetti successivi che rifiniscono la soluzione.
Adattamenti moderni
CRISP-ML(Q): estensione del 2020 per production ML, aggiunge fasi di monitoring, maintenance, e quality assurance. Indirizza ML-specific concerns come model drift, retraining, e A/B testing.
Agile Data Science: integrazione di CRISP-DM con sprint Agile. Ogni sprint esegue mini-cicli CRISP-DM, consegnando incrementi di valore. Favorito in team che adottano DataOps.
TDSP (Team Data Science Process) di Microsoft: versione più prescrittiva con templates, checklists, e tooling Azure-specific. Enfasi su collaboration e reproducibility.
Considerazioni pratiche
Data Preparation domina: il 50-70% del tempo va in questa fase. Sottostimare questo effort è causa comune di project delays. Investire in data quality upfront (data governance, catalogs) riduce questo overhead.
Business Understanding è critica: progetti che partono da “abbiamo dati, troviamo insight” (data-first) falliscono più di quelli che partono da business problem. CRISP-DM forza a iniziare da business understanding.
Deployment è spesso trascurato: molti progetti terminano con notebook Jupyter o report PowerPoint. CRISP-DM ricorda che valore si realizza solo con deployment e adozione da parte di utenti.
Skill gap: CRISP-DM richiede competenze sia tecniche (modeling, data engineering) che business (domain knowledge, stakeholder management). I data scientist junior tendono a over-focus su modeling.
Alternative e confronti
SEMMA (Sample, Explore, Modify, Model, Assess): processo SAS, più tool-specific e meno enfasi su business understanding.
KDD (Knowledge Discovery in Databases): predecessore accademico di CRISP-DM, più teorico e meno pratico.
Agile/Lean: framework complementari. CRISP-DM definisce “cosa fare”, Agile definisce “come organizzare il team”. Molte org combinano CRISP-DM con sprint e retrospettive.
Fraintendimenti comuni
”CRISP-DM è waterfall”
No. Le fasi sono iterative. Si torna regolarmente a fasi precedenti quando si scoprono nuove informazioni. Il diagramma circolare rappresenta questa ciclicità.
”CRISP-DM è obsoleto, superato da Agile”
Falso. CRISP-DM e Agile operano a livelli diversi. CRISP-DM struttura il workflow analitico, Agile struttura team e delivery. Si complementano.
”CRISP-DM ignora production e monitoring”
No. La fase Deployment include esplicitamente monitoring e maintenance planning. Molti progetti trascurano questa fase, ma il framework la prevede.
”CRISP-DM è solo per data mining classico, non per deep learning”
Non vero. I principi (capire business, preparare dati, modellare, valutare, deployare) si applicano a qualsiasi approccio ML, incluso deep learning. CRISP-ML(Q) modernizza specifici dettagli.
Termini correlati
- DataOps: metodologia per accelerare CRISP-DM tramite automazione
- Agile Software Development: framework per organizzare sprint iterativi
- LLM: approccio moderno basato su fondamenti di machine learning che CRISP-DM guida
- DevOps: disciplina parallela per deployment software correlata a fase deployment di CRISP-DM
Fonti
- Chapman, P. et al. (2000). CRISP-DM 1.0: Step-by-step data mining guide
- Provost, F. & Fawcett, T. (2013). Data Science for Business
- KDnuggets (2014). “Poll: What main methodology are you using for your analytics, data mining, or data science projects?”
- Studer, S. et al. (2020). “Towards CRISP-ML(Q): A Machine Learning Process Model with Quality Assurance Methodology”