alberi decisionali prima parte. argomenti della lezione generazione di sistemi di classificazione...
TRANSCRIPT
![Page 1: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/1.jpg)
ALBERI DECISIONALI prima parte
ALBERI DECISIONALI prima parte
![Page 2: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/2.jpg)
Argomenti della lezioneArgomenti della lezione
Generazione di sistemi di classificazione
Generazione di sistemi di classificazione
Scelte dell’analisi Scelte dell’analisi
Criteri di valutazione della disomogeneità
Criteri di valutazione della disomogeneità
![Page 3: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/3.jpg)
L’obiettivo è di selezionare, tra le variabili esplicative, quelle che
maggiormente spiegano la variabilità (o la mutabilità) della variabile target
L’obiettivo è di selezionare, tra le variabili esplicative, quelle che
maggiormente spiegano la variabilità (o la mutabilità) della variabile target
Gli alberi decisionali rientrano nell’ambito dell’analisi della
dipendenza
Gli alberi decisionali rientrano nell’ambito dell’analisi della
dipendenzaRealizzano un procedimento di
ripartizione del collettivo analizzato in gruppi mediante una successione
di spaccature di tipo gerarchico
Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione
di spaccature di tipo gerarchico
![Page 4: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/4.jpg)
Le partizioni prodotte sono di tipo gerarchico, e pertanto
rappresentabili mediante un dendrogramma ad albero
Le partizioni prodotte sono di tipo gerarchico, e pertanto
rappresentabili mediante un dendrogramma ad albero
La costruzione dell’albero è una procedura stepwise
La costruzione dell’albero è una procedura stepwise
![Page 5: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/5.jpg)
Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene
suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio
della variabile dipendente
Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene
suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio
della variabile dipendente
![Page 6: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/6.jpg)
Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a
quando il processo viene interrotto in base ad una regola d’arresto
Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a
quando il processo viene interrotto in base ad una regola d’arresto
Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai
valori assunti da una o più variabili esplicative
Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai
valori assunti da una o più variabili esplicative
![Page 7: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/7.jpg)
La partizione migliore ad ogni passo viene scelta sulla base di un criterio
di omogeneità interna dei gruppi che vengono
generati dalle suddivisioni del campione
La partizione migliore ad ogni passo viene scelta sulla base di un criterio
di omogeneità interna dei gruppi che vengono
generati dalle suddivisioni del campione
![Page 8: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/8.jpg)
La variabile dipendente può
essere:
La variabile dipendente può
essere:
qualitativa qualitativa
quantitativa quantitativa
![Page 9: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/9.jpg)
La costruzione dell’albero può seguire una procedura di
partizione:
La costruzione dell’albero può seguire una procedura di
partizione:
binaria binaria
ternaria ternaria
multipla multipla
![Page 10: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/10.jpg)
Ambiti di applicazione degli alberi decisionali:
Ambiti di applicazione degli alberi decisionali:
![Page 11: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/11.jpg)
ricerca di interazioni tra variabili predittive
ricerca di interazioni tra variabili predittive
identificazione di gruppi devianti
identificazione di gruppi devianti
identificazione di dati anomali
identificazione di dati anomali
![Page 12: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/12.jpg)
interpretazione causale del fenomeno rappresentato dalla variabile dipendente
interpretazione causale del fenomeno rappresentato dalla variabile dipendente
ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali
ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali
![Page 13: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/13.jpg)
forzatura di un dato valido in sostituzione di un dato mancante
forzatura di un dato valido in sostituzione di un dato mancante
produzione di regole di previsione o di classificazione
produzione di regole di previsione o di classificazione
![Page 14: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/14.jpg)
Regole di salvaguardia nella esecuzione dell‘analisi:
Regole di salvaguardia nella esecuzione dell‘analisi:
errore di stima nei gruppi formati
errore di stima nei gruppi formati
forma della distribuzione della variabile dipendente
forma della distribuzione della variabile dipendente
![Page 15: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/15.jpg)
Scelte nell’analisi di
partizione
Scelte nell’analisi di
partizione
![Page 16: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/16.jpg)
tipo di variabile dipendente tipo di variabile dipendente
ordine di ingresso dei predittori ordine di ingresso dei predittori
numero dei gruppi da tentare ad ogni passo dell’analisi
numero dei gruppi da tentare ad ogni passo dell’analisi
criteri che modificano la struttura dell’albero
criteri che modificano la struttura dell’albero
criteri di arresto del processo di segmentazione
criteri di arresto del processo di segmentazione
![Page 17: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/17.jpg)
Eliminazione dall’analisi
di variabili di disturbo
Eliminazione dall’analisi
di variabili di disturbo
![Page 18: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/18.jpg)
Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà
spiegata da questa variabile predittiva
Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà
spiegata da questa variabile predittiva
In questi casi è opportuno considerare invece della variabile
originaria Y, i residui della regressione della Y sulla Z
In questi casi è opportuno considerare invece della variabile
originaria Y, i residui della regressione della Y sulla Z
![Page 19: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/19.jpg)
Scelta dei potenziali predittori:
Scelta dei potenziali predittori:
ipotesi a priori ipotesi a priori
analisi statistiche preliminari del campione osservato
analisi statistiche preliminari del campione osservato
![Page 20: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/20.jpg)
Modalità dei predittoriModalità dei predittori
Tutte le variabili esplicative vanno trasformate in variabili categoriali
Tutte le variabili esplicative vanno trasformate in variabili categoriali
Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi
Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi
Limitare il numero di categorie e bilanciarle tra le variabili
Limitare il numero di categorie e bilanciarle tra le variabili
![Page 21: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/21.jpg)
Monotonicità della
relazione
Monotonicità della
relazione
![Page 22: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/22.jpg)
Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala
almeno ordinale, quando la crescere della prima la seconda varia
costantemente
Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala
almeno ordinale, quando la crescere della prima la seconda varia
costantemente
Si impone la monotonicità tra Y e X quando si vuole che siano aggregate
per formare gruppi solo modalità adiacenti sulla scala ordinale
Si impone la monotonicità tra Y e X quando si vuole che siano aggregate
per formare gruppi solo modalità adiacenti sulla scala ordinale
![Page 23: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/23.jpg)
x1 > 0,7x1 > 0,7
t1t1
x2 > 0,5x2 > 0,5
x1 ≤ 0,7x1 ≤ 0,7
x2 ≤ 0,5x2 ≤ 0,5
t2t2 t3t3
t5t5t4t4
![Page 24: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/24.jpg)
classe 1classe 1
classe 2classe 2
x2x2t5t5 t3t3
t4t4
x1x1
0,50,5
0,70,7
![Page 25: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità](https://reader030.vdocumenti.com/reader030/viewer/2022013003/5542eb50497959361e8bf3bf/html5/thumbnails/25.jpg)
Ordine d’ingresso dei predittori
Ordine d’ingresso dei predittori
E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente
inserite per prime nel processo di partizione le variabili che stanno
all’origine della catena causale
E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente
inserite per prime nel processo di partizione le variabili che stanno
all’origine della catena causale