Natural Language Processing

Definizione

Natural Language Processing (NLP) è il campo dell’informatica che studia e sviluppa algoritmi e modelli per permettere ai computer di processare, comprendere, e generare linguaggio naturale umano (testo, parlato). NLP combina linguistica computazionale con machine learning per risolvere problemi pratici che richiedono comprensione semantica.

La disciplina è interdisciplinare: linguistica, informatica, psicologia cognitiva, e statistica convergono su come formalizzare il linguaggio e insegnare ai sistemi a maneggiarlo.

Componenti fondamentali

Morfologia e Sintassi: analisi della struttura linguistica.

Tokenization: segmentazione di testo in token (parole, sub-word)
Part-of-speech tagging: identificazione di sostantivi, verbi, aggettivi
Parsing: estrazione di strutture sintattiche (alberi di dipendenza)

Semantica: significato.

Word sense disambiguation: quale significato di una parola è inteso?
Relationship extraction: quali entità sono correlate e come?
Semantic role labeling: chi fa cosa a chi?

Pragmatica e Discorso: contesto e intenzione.

Coreference resolution: quali pronomi si riferiscono a quali entità?
Sentiment analysis: tono emotivo del testo?
Entailment: una frase implica logicamente un’altra?

Task principali in NLP

Understanding (Discriminative):

Classification: sentiment, spam detection, topic categorization
Named Entity Recognition (NER): identificazione di persone, luoghi, organizzazioni
Relation extraction: estrazione di relazioni fra entità
Question Answering: rispondere a domande su un testo

Generation (Generative):

Machine translation: testo da una lingua a un’altra
Summarization: sintesi di documenti lunghi
Text generation: creazione di testo coerente (articoli, creatività)
Dialogue: sistemi conversazionali

Structured Prediction:

Tagging: assegnare etichette a sequenze (POS tagging, NER, chunking)
Parsing: estrazione di strutture (alberi sintattici, grafi di dipendenza)

Evoluzione metodologica

Era 1: Rule-based (1950s-1980s): sistemi basati su regole scritte a mano. Fragili, limitati a domini ristretti.

Era 2: Statistical NLP (1990s-2010s): modelli probabilistici (HMM, CRF, SVM). Feature engineering manuale, ma generalizzano meglio.

Era 3: Neural NLP (2010s): reti neurali ricorrenti (LSTM, GRU), convoluzionali. Automatic feature learning. Breakthrough su sequence-to-sequence models.

Era 4: Pre-trained models / Transformers (2018+): BERT, GPT, T5. Pre-training su web-scale data. Paradigma dominante oggi.

Benchmark e Valutazione

GLUE (General Language Understanding Evaluation): 9 task. Accuracy media ~94% (human-level ~96%, attingibile). Benchmark “risolto” dagli LLM.

SuperGLUE: versione più difficile. Molti modelli grande ancora sottoperformano umani.

SQuAD (Stanford Question Answering Dataset): machine reading comprehension. Accuracy oltre 90% su modelli recenti.

MTEB (Massive Text Embedding Benchmark): 56 task di retrieval, clustering, classification. Benchmark comprehensivo per embedding models.

WMT (Workshop on Machine Translation): benchmark per traduzione. BLEU score è metrica standard (correlazione debole con qualità umana).

Casi d’uso

Chatbot e Assistenti: chatbot conversazionali, FAQ answering, customer support automation.

Content analysis: analisi di feedback clienti, monitoring di social media, content moderation.

Information extraction: estrazione strutturata da documenti non-strutturati (contratti, articoli).

Search e Ranking: ricerca semantica (vs. keyword matching), ranking di risultati per rilevanza.

Machine translation: traduzione automatica fra lingue.

Document classification: categorizzazione automatica di documenti.

Considerazioni pratiche

Data requirements: NLP moderno richiede dati abbondanti (milioni di esempi per task specifici). Transfer learning (fine-tuning di modelli pre-trained) mitiga questo per alcuni task.

Language diversity: modelli sono spesso addestrati su inglese. Multilingualità (italiano, lingue under-resourced) rimane sfida. Modelli multilingue (mBERT, XLM-RoBERTa) hanno performance inferiore per lingua vs. monolingual.

Ambiguità pragmatica: sarcasmo, idiomi, ambiguità referenziale rimangono difficili. Gli umani disambiguano tramite contesto mondiale; i modelli mancano di questo.

Interpretabilità: LLM sono scatole nere. Capire perché un modello fa una predizione è difficile. Research in explainability è attiva (attention weights, SHAP, LIME).

Fraintendimenti comuni

”NLP moderno è ‘risolto’ dai LLM”

Parziale. Benchmark stilizzati (GLUE) hanno raggiunto human-level accuracy. Ma compiti reali (domain shift, adversarial examples, linguistica ricca) rimangono difficili. Zero-shot generalization è meglio ma imperfetto.

”I modelli di NLP ‘capiscono’ il linguaggio”

No. Operano su rappresentazioni statistiche. Non hanno mondo interiore, coscienza, o comprensione nel senso cognitivo. Producono output plausibili senza consapevolezza.

”Una volta addestrato, il modello NLP risolve qualsiasi task linguistico”

No. Transfer learning mitiga data scarcity, ma specializzazione rimane rilevante. Un modello addestrato su news genera stile giornalistico; su testo legale, può underperform.

Termini correlati

LLM: istanza moderna di NLP, generativo su scale web
Transformer: architettura dominante in NLP contemporaneo
Embeddings: rappresentazioni vettoriali di testo
Tokenization: preprocessing fondamentale in NLP
RAG: pattern di retrieval che estende capacità NLP con knowledge esterna

Fonti

Jurafsky, D. & Martin, J.H. (2024). Speech and Language Processing (3rd Edition). Stanford (textbook standard)
Lewis-Kraus, G. (2023). The Great AI Awakening. NYT Magazine
Papers with Code - NLP Benchmarks: aggregazione di benchmark e sota
EMNLP: conference principale per NLP research