vqr e asn: un primo bilancio e prospettive future
DESCRIPTION
VQR e ASN: un Primo Bilancio e Prospettive Future. Presentazione tenuta in data 29-1-2014 presso il Dipartimento di Chimica, Sapienza Università di Roma, nell'ambito del Convegno VQR e ASN: un Primo Bilancio e Prospettive Future. Incontro-dibattito organizzato dal Coordinamento Nazionale Ricercatori Universitari (CNRU) con Stefano Fantoni (Presidente ANVUR), Giuseppe De Nicolao (Redattore del sito web ROARS), Sergio Bendetto (Componente Consiglio Direttivo ANVUR), Marco Merafina (Coordinatore Nazionale CNRU), Giancarlo Ruocco (Prorettore alla Ricerca, Sapienza Università di Roma).TRANSCRIPT
VQR e ASN: un Primo Bilancio e Prospettive Future
Giuseppe De NicolaoDip. Ingegneria Industriale e
dell’InformazioneUniversità di Pavia
Capitoli
1. La VQR come non l’avete mai vista2. VQR: la parete nord della valutazione3. VQR: che fare?4. ASN: più mediane per tutti5. ASN: che fare?
1. La VQR come non l’avete mai vista
ING-INF/05!
SERGIO BENEDETTO(CONSIGLIO DIRETTIVO ANVUR)
4–02-2012
A cosa serve la valutazione?
Spesa per università (% PIL): l’Italia è 30° su 33 (fonte: OCSE 2013)
% della popolazione nella fascia 25-34 anni con titolo universitario: l’Italia è 34° su 36
(Italia: 21%, media OCSE: 39%)
% di studenti che intraprendono il dottorato di ricerca:l’Italia è 21° su 32 nazioni (fonte: OCSE 2013)
RisorseING-INF/05!
SPESA IN RICERCA E SVILUPPO (% PIL)
ITALIA
SPESA R&D (COME % DEL PIL) NEL SETTORE DI IMPIEGO “ISTRUZIONE SUPERIORE”
FONTE: OECD
COMPOSIZIONE N. RICERCATORI (PER MILLE UNITÀ FORZA LAVORO)
RisultatiING-INF/05!
PUBBLICAZIONI (WoS)
PUBBLICAZIONI 2004-2010:NUMERO DI CITAZIONI
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 4.1)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
PUBBLICAZIONI 2004-2010:CRESCITA MEDIA ANNUA (%)
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 3.2)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
EfficienzaING-INF/05!
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 6.1)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
# p
ap
ers/
mill
ion
US
D (
PP
P)
Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.3)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
# c
ite
s/m
illio
n U
SD
(P
PP
)
Capitolo 2La parete nord
della valutazione
Vetta: valutazione nazionale della ricerca
Vie classiche: peer review, statistiche bibliometriche
Parete nord: valutazione bibliometrica dei singoli articoli
Tre spedizioni:
UK - RAE/REF Australia - ERA Italia - VQR
Report on the pilot exercise to develop bibliometric indicators for the REF
Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF
http://www.hefce.ac.uk/pubs/year/2009/200939/
VQR: gli indicatori bibliometrici In particolare verranno considerati:• l’Impact Factor di Journal Citation Reports di Thomson Reuters (IF) della rivista nell’anno di pubblicazione;• il numero di citazioni ricevute dal prodotto fino al 31 dicembre 2011;http://www.anvur.org/sites/anvur-miur/files/gev_documenti/gev02_criteri_21_05.pdf
bibliometry
BIBLIOMETRY
Australia drops journal rankings
“There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes”
Minister K. Carr, May 2011
bibliometry
BIBLIOMETRY
I “QVADRATI
MAGICI”
BIBLIOMETRICI
For the matrix entries labeled IR we rely on the informed peer review
ANVUR proposal: Use bibliometry, # of citations (and informed peer review)
25
A
B
C
D
Cita
tions
A
B
C
D
A B C D
A
B
C
D
Cita
tions
A
B
C
D
A B C D
A A A?
D D
D
A
A
A?
D
IR
IR
IR
IRIR
IRIR
IR IR
IR
IR
IR IRIR
Bibliometry (IF,…) Bibliometry (IF,…)
Recentarticles
Old articles
DEI FURBETTI DEL QUADRATINO
Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata
su metriche disomogenee
A. Le aree sono scalibrate (peccato veniale)B. Le bibliometrie degli SSD sono scalibrate
(fatal error)C. Bibliometria e peer-review sono scalibrate
(fatal error)
A. Le aree sono scalibrate ING-INF/05!
I due volti del quadrato magico del GEV09
BEST
WORST
Lo schema base ...
... ha due varianti ...
Quale bersaglio preferite?
0 punti 0 punti
ING-INF/05 Resto del GEV 09
JOURNAL RANKINGJOURNAL RANKING
CITA
TIO
NS
BEST BEST
WORST WORST
0,5 pti
1 punto 1 punto
0,8 punti 0,8 punti
0,5 pti
and the loser is ... ING-INF/05!
and the loser is ... ING-INF/05!
Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?
Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR
Proviamo a visualizzare la Tabella A1.1 attraverso la
metafora del tiro con l’arco
Le basi di tiro
bibliometrico
E = 1 B = 0,8 A = 0,5 L = 0
IL BERSAGLIO VQR: COLORI E PUNTEGGIIL BERSAGLIO VQR: COLORI E PUNTEGGI
20%
20%
10%
50%
Ma come sono fatti i bersagli veri?
Ce lo dice l’ANVUR: infatti, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN
I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area
Ti piace vincere facile?
40%
25%
14%
21%
22%
21%
13%
44% Ingegneria Industriale e dell’InformazioneScienze
Mediche
Morale: Le forti variazioni inter-area rendono i voti
incomparabili tra aree diverse
L’ANVUR lo sa e scrive che i voti in aree diverse non sono comparabili ...
(peccato veniale)
... ma il problema è dentro le aree.
B. La bibliometria dei SSD è scalibrata
I bersagli dei SSD sono scalibrati?Sì, come confessa il GEV 09
I bersagli dei SSD sono scalibrati?Sì, come confessa il GEV 02
Area 02: lo schema base ....
.... e le ricalibrazioni
• Il GEV 02 ha ricalibrato
• Tutto bene, allora
• Non proprio, perché
1. Gli altri GEV non hanno ricalibrato
2. Ricalibrando, il GEV 02 ha cambiato la proporzione di peer-review (altra fonte di scalibrazione)
Tutto è bene quel che finisce bene?
I bersagli dei SSD sono scalibrati?Altra evidenza dal GEV 09
Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science
I bersagli dei SSD sono scalibrati?Altra evidenza dal GEV 09
% ECCELLENTI VQR
% E
CC
EL
LE
NT
I Wo
S (
To
p 5
%) Area 09: confronto Web of Science vs VQR
La misura esterna Top 5% WoS non è troppo coerente con la % Eccellenti della VQR ...
VOTO MEDIO VQR
% E
CC
EL
LE
NT
I Wo
S (
To
p 5
%)
... e nemmeno con il voto medio VQR
Morale della favola
• Le bibliometrie dei SSD sono scalibrate(confessione del GEV 02)
• L’area 09 mostra che la scalibrazione è tale da rendere inaffidabili i risultati (SSD “eccellenti” per VQR non lo sono per Web of Science)
FATAL ERROR?
C. Bibliometria e peer-review sono scalibrate
La versione ufficiale
“una più che adeguata concordanza tra valutazione peer e biblio”
Stesse identiche parole in tutti i rapporti di area 01-09
VO
TO
ME
DIO
VQ
R
% PEER REVIEW
il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)
SSD: Voto medio VQR vs % peer review
VOTO
MED
IO
In tutte le aree la valutazione peer è più severa di quella bibliometrica
Morale della favola• Valutazione bibliometrica e peer-review
concordano poco• SSD eccellenti secondo ANVUR non sono
quelli eccellenti secondo Web of Science, ma quelli che hanno una bassa % di peer-review
FATAL ERROR?
«Il caso non ha dunque nulla a che fare con i risultati della Vqr»
S. Benedetto e R. Torrinihttp://www.lavoce.info/una-valutazione-molto-chiara/
«La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle Strutture, per i giovani che vogliono intraprendere gli studi universitari …»
S. Fantoni, “Una radiografia del sistema universitario”, in: I voti all’università, supplemento del Corriere della Sera, Luglio 2013, pag. 12
Area 9: Ingegneria Industriale e dell’informazione
Area 8b: Architettura
“Intraprendere gli studi”: Messina meglio di Milano Politecnico?
Gli errori architetturali della VQR
• La confusione tra progettisti dei criteri e valutatori
• La confusione tra eccellenza scientifica e competenza nel gestire e condurre processi divalutazione
• La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici
4. VQR: che fare?
ING-INF/05!
Problemi della VQR• Non c’è uniformità del metro di giudizio
bibliometrico tra le aree• L’ANVUR (accreditamento dottorati) e CRUI (gruppo
di lavoro valutazione) hanno riconosciuto che il metro di giudizio è disuniforme anche nelle le aree
• Il mix bibliometria/peer review introduce ulteriori disuniformità
• Probabilmente le falle non sono sanabili. Conseguenza: classifiche inaffidabili e distribuzione FFO arbitraria
• Soluzione: usare la VQR il meno possibile
5. ASN: più mediane per tutti
ING-INF/05!
La mediana è mobile qual piuma al vento
• Mediane intere e frazionarie dovrebbero alternarsi in modo casuale. Perché la seconda colonna delle mediane dei commissari per le aree 12, 13 e 8 (settori non bibliometrici) presenta solo valori interi?
• Non è possibile il calcolo informatizzato della seconda e terza mediana senza poter interrogare in formato elettronico la lista delle riviste in fascia A e quella delle “riviste scientifiche”, che però sono stare pubblicate parecchi giorni dopo.
Domande medianiche
La gaia scienza ... delle riviste pazze
L’ANVUR acquisisce visibilità internazionale:“crazy lists that ignored many journals in favour of provincial
newspapers, religious circulars and yachting magazines”
La prevalenza del suino
“Oggetto di sarcasmo è in particolare la Rivista di suinicultura ... il cui titolo ha colpito la fantasia dei critici. ... Del resto, Il Caffè [1764-1766] dovrebbe forse essere escluso dal novero delle riviste che hanno fatto la cultura italiana perché ha un nome che lascia piuttosto pensare alla cucina?” (Ribolzi e Castagnaro)
Illuminismo lombardo (1764)
Illuminismo lombardo (1764)
Scientificità ANVUR (2012)
Cosa dicono gli esperti di statistica?
Golden-Spiegelhalter: a three-part framework for performance assessment
1. Data "No amount of fancy statistical footwork will overcome basic inadequacies in either the appropriateness or the integrity of the data collected."
Golden-Spiegelhalter: a three-part framework for performance assessment 1/3
Dovrebbe valere il principio di non cancellazione: "nessuno può migliorare la propria valutazione cancellando dei titoli dal proprio curriculum”
Paradosso: •Ricercatore 1 e Ricercatore 2 hanno la stessa età•Pubblicano in coppia 20 articoli negli anni 2001-2010•Il Ricercatore 1 è coautore in un articolo (che ha zero citazioni) pubblicato nel 1995 a cui aveva contribuito mentre era laureando ⇒ maggiore età accademica (secondo ANVUR)⇒ il suo h-index per anno è inferiore•Al Ricercatore 1 converrebbe “cancellare” il paper del 1995
Appropriateness/integrity: esempio #1
22 Agosto 2011
Bufala!Bufala!
Appropriateness/integrity: esempio #2
ma qui crollano anche tutte le altre nazioni!
L’ARMAGEDDONDELLA
RICERCAEUROPEA?
NO! È SOLO UNPROBLEMA DI ....
ESEMPIO: A CAUSA DEI BEN NOTI RITARDI DI REGISTRAZIONE NEI DATABASE BIBLIOMETRICI, NEL 2010 LA NATIONAL SCIENCE FOUNDATION RITENEVA INAFFIDABILI I DATI DEL 2008 E 2009
.... RITARDI
I dati bibliometrici degli ultimi 1-2 anni non sono assestati. Non usare a scopo scientifico!
Con il “contemporary h-index” le citazioni (non assestate) di un articolo pubblicato nel 2012 sono pesate quattro volte di più di quelle (assestate) di un articolo del 2008
la normalizzazione dell’indice h verrà effettuata utilizzando il contemporary h-index
BIBLIOMETRY
I contenziosi saranno inevitabili:nel 2011 ANVUR scriveva ...
2.4 Ricorso in appello avverso la pubblicazione dei dati ANVUR Sembra opportuno inserire un sistema, molto snello, di possibilità di ricorso contro la pubblicazione delle mediane da parte di soggetti esclusi. Occorre definire il modello e il soggetto. Preferibile un modello del tipo ricorso gerarchico, verso l’ANVUR, che dovrà nominare una commissione indipendente.
2. Statistical Analysis and Presentation “We shall pay particular attention to the specification of an appropriate statistical model, the crucial importance of uncertainty in the presentation of all results ...."
Golden-Spiegelhalter: a three-part framework for performance assessment 2/3
2. Statistical Model: esempio La multimodalità
L’identificazione dei casi nei quali il calcolo della mediana e la sua utilizzazione si effettuano all’interno del SSD avviene sulla base del seguente algoritmo, descritto per un singolo settore concorsuale e nel caso dei professori ordinari ma valido per tutti:a) si calcola la mediana del settore concorsuale;b) si calcola la mediana per tutti i SSD appartenenti al settore concorsuale cheabbiano al loro interno almeno 30 professori ordinari;c) se il SSD ha una mediana superiore o uguale a quella del settore concorsuale siapplica ai professori ordinari che vi afferiscono la mediana del settoreconcorsuale;d) se il SSD ha una mediana inferiore a quella del settore concorsuale si calcola ilnumero dei professori ordinari del SSD il cui indicatore supera la mediana del settore concorsuale. Se il numero è superiore al 25% dei professori ordinari del SSD si procede come in c). Se il numero è inferiore al 25% per il SSD e per tutti i docenti che vi afferiscono si utilizza la mediana del SSD.
ANVUR, Delibera n. 50 del 21/06/2012
L’identificazione dei casi nei quali il calcolo della mediana e la sua utilizzazione si effettuano all’interno del SSD avviene sulla base del seguente algoritmo, descritto per un singolo settore concorsuale e nel caso dei professori ordinari ma valido per tutti:a) si calcola la mediana del settore concorsuale;b) si calcola la mediana per tutti i SSD appartenenti al settore concorsuale cheabbiano al loro interno almeno 30 professori ordinari;c) se il SSD ha una mediana superiore o uguale a quella del settore concorsuale siapplica ai professori ordinari che vi afferiscono la mediana del settoreconcorsuale;d) se il SSD ha una mediana inferiore a quella del settore concorsuale si calcola ilnumero dei professori ordinari del SSD il cui indicatore supera la mediana del settore concorsuale. Se il numero è superiore al 25% dei professori ordinari del SSD si procede come in c). Se il numero è inferiore al 25% per il SSD e per tutti i docenti che vi afferiscono si utilizza la mediana del SSD.
ANVUR, Delibera n. 50 del 21/06/2012
SSD SSD SSD
MEDIANA MEDIANA MEDIANA
MEDIANASETTORE
CONCORSUALE
n = 28
n = 100
n = 72
n TOT = n + n + n = 100 + 28 + 72 = 200
SETTORE CONCORSUALE COMPOSTO DA 3 SSD
INDICATOREBIBLIOMETRICO
SSD SSD SSD
MEDIANA MEDIANA MEDIANA
MEDIANASETTORE
CONCORSUALE
n = 28
n = 100
n = 72
n TOT = n + n + n = 100 + 28 + 72 = 200
SOLUZIONE NATURALE
INDICATOREBIBLIOMETRICO
COMMISSARI 50%: SSD 14%: SSD 36%: SSD
INDICATOREBIBLIOMETRICO
SSD SSD SSD
MEDIANA MEDIANA MEDIANA
MEDIANASETTORE
CONCORSUALE
n = 28
n = 100
n = 72
n TOT = n + n + n = 100 + 28 + 72 = 200
SOLUZIONE ANVUR #1 COMMISSARI 74%: SSD 0%: SSD 26%: SSD
SSD SSD SSD
MEDIANA MEDIANA MEDIANA
MEDIANASETTORE
CONCORSUALE
n = 28
n = 100
n = 72
n TOT = n + n + n = 100 + 28 + 72 = 200
SOLUZIONE ANVUR #2 (SE DEROGA PER SSD )
INDICATOREBIBLIOMETRICO
COMMISSARI 67%: SSD 9%: SSD 24%: SSD
SSD SSD SSD
MEDIANA MEDIANA MEDIANA
MEDIANASETTORE
CONCORSUALE
n = 28
n = 100
n = 72
n TOT = n + n + n = 100 + 28 + 72 = 200
SOLUZIONE ANVUR #2 (SE DEROGA PER SSD )
INDICATOREBIBLIOMETRICO
COMMISSARI 67%: SSD 9%: SSD 24%: SSD
IL SETTORE ALFA È IL PIÙ ADATTO ALLA SOPRAVVIVENZA
LA SELEZIONE “NATURALE” DEGLI SSD, OVVERO LE MEDIANE COME STRUMENTO DI DARWINISMO ACCADEMICO?
Zombie attack!
“facciamo mobbing ... tagliamoli fuori dalle commissioni ... e facciamone degli zombies”G. Federico, Membro Gruppo di Lavoro ANVUR (nomina: 3 luglio 2012)
Art. 2 gli studiosi collaboratori esterni [...] fanno sì che le relazioni con i colleghi siano ispirate a principi di leale collaborazione, evitando atti e comportamenti caratterizzati da animosità e conflittualità. [...] Consapevoli della natura pubblica delle funzioni svolte, si comportano in modo tale da promuovere la reputazione dell’Agenzia e la fiducia nel suo operato.
3. Interpretation and Impact ”... analysts should also be aware of the potential effect of the results in terms of future behavioural changes by institutions and individuals seeking to improve their subsequent 'ranking'."
Golden-Spiegelhalter: a three-part framework for performance assessment 3/3
3. Interpretation and impact: incentivazione di comportamenti opportunistici
• moltiplicare articoli brevi su riviste minori• seguire le mode per massimizzare le citazioni• scambio di citazioni tra “amici”• authorships fittizie
La mediana consente ad una popolazione sottoposta a valutazione di modificare il metro di giudizio:
gli ultimi due comportamenti favoriscono scuole/gruppi di ricerca numerosi ⇒pericolo
di“pulizia etnica”
5. ASN: che fare?
ING-INF/05!
ASN (1/3)• Accettare gli standard internazionali: no uso
automatico della bibliometria individuale• Informed peer-review dei candidati: i dati
bibliometrici sono indizi da esaminare, interpretare e pesare
• Abolire il “valore legale” dell’età accademica• Assunzione di responsabilità: non c’è formula che ci
salverà• Ruolo della trasparenza: critiche pubbliche alle
commissioni, dibattito. Occorre tempo per maturare
ASN (2/3)• Eventuali soglie devono essere accertabili con
sicurezza e autocertificabili (no citazioni)• No soglie dinamiche per non innescare
comportamenti opportunistici• Soglie: tagliare la coda bassa (produzione
insufficiente per accedere al ruolo). Affidarle al CUN (organo rappresentativo istituzionale)
• Commissioni: stesse soglie dei candidati. Sorteggio+elezione?
ASN (3/3)
• Rinnovo annuale delle commissioni. • Numero massimo di candidati per
commissione. Se necessario, nominare più commissioni.
• Possibilità di ripresentarsi anche in anni consecutivi (3 getttoni in 5 anni per es.)
• Importante: separare reclutamento da progressione di carriera. Tagliare alla radice il problema del candidato locale
“L’Anvur ha ucciso la valutazione. Viva la valutazione!”
... l’Anvur ha ucciso la valutazione con la sua disattenzione dei limiti della valutazione e del contesto nel quale essa andava ad inserirla. Non sono stato completo nel dir ciò. Bisogna anche aggiungere che l’Anvur ha ucciso se stessa...S. Cassese – Primo Convegno ROARS
Roma, 15 novembre 2012
E l’ANVUR?• Cosa ci vorrebbe?• Meno “bava alla bocca” e maggiore competenza
tecnica ovvero ...• ... i “guardiani del merito” dovrebbero vedere meno
B-movies di zombies e documentarsi meglio sulla letteratura scientometrica e le esperienze internazionali
• Se la situazione non fosse tragica, ci sarebbe da ridere
• È ora che qualcuno (MIUR) dica “basta!” e si cominci a lavorare con competenza
Grazie per l’attenzione!