La valutazione della ricerca in economia: un’analisi critica

Recentemente noi studenti di Rethinking Economics – associazione studentesca che mira innanzitutto a rendere plurale l’insegnamento dell’economia nelle università– abbiamo dedicato la nostra attenzione anche all’ambito della ricerca in economia e, più in particolare, alla valutazione della qualità della ricerca condotta dall’ANVUR (Agenzia nazionale per la valutazione dell’università e della ricerca). Anche qui, come nella didattica, è emerso un quadro preoccupante riguardo ai rapporti di forza tra teoria dominante e teorie alternative; a nostro avviso, è fondamentale agire anche su questo livello, sia per la sua importanza specifica sia per gli inevitabili effetti sulla formazione dei futuri professori e dunque, in ultima istanza, sull’insegnamento.

Con il presente articolo cercheremo dunque di illustrare i punti principali che caratterizzano la valutazione della ricerca, con specifico riferimento all’area economica; prima, però, occorre avere qualche informazione generale su ANVUR e tracciare un quadro generale delle sue funzioni.

Breve storia e funzioni dell’ANVUR

L’ANVUR, come già accennato, è l’agenzia nazionale preposta alla valutazione del sistema universitario e della ricerca italiani, fu istituita nel 2006 sotto il governo Prodi ai sensi dell’art.2, comma 138, del decreto legge 3 ottobre 2006, n. 262, convertito, con modificazioni, dalla legge 24 novembre 2006, n. 286; è un ente della Repubblica Italiana, vigilato dal Ministero dell’Istruzione, dell’Università e della Ricerca (MIUR). Ai tempi della sua costituzione non vi era un’unica idea di valutazione, ma se ne possono riportare almeno due: una le attribuiva un ruolo di supporto e di indirizzo privo di controllo e giudizio, mentre l’altra vedeva nella valutazione uno strumento utile per l’allocazione di fondi pubblici. Fu quest’ultima a prevalere e, infatti, nel Regolamento ANVUR è previsto che parte dei fondi pubblici per le università sia assegnata sulla base dei risultati della valutazione della ricerca. I fondi per l’università rientrano nel cosiddetto fondo di finanziamento ordinario FFO, costituito nel 1993 (art. 5 della legge 24 dicembre 1993 n. 537), il quale attualmente è composto da una “quota base” e da una “quota premiale”. La prima viene attribuita automaticamente alle università sulla base dei “costi standard” calcolati per studente, mentre la seconda viene attribuita sulla base della valutazione degli istituti. Inizialmente la quota premiale non doveva essere inferiore al 7% del fondo ed era (è tuttora) ripartita prendendo in considerazione i seguenti elementi[1]:

– la qualità dell’offerta formativa e i risultati dei processi formativi;

– la qualità della ricerca scientifica;

– la qualità, l’efficacia e l’efficienza delle sedi didattiche.

Successivamente è stato specificato che la quota premiale “è determinata in misura non inferiore al 16 per cento per l’anno 2014, al 18 per cento per l’anno 2015 e al 20 per cento per l’anno 2016, con successivi incrementi annuali non inferiori al 2 per cento e fino ad un massimo del 30 per cento. Di tale quota, almeno tre quinti sono ripartiti tra le università sulla base dei risultati conseguiti nella Valutazione della qualità della ricerca (VQR) e un quinto sulla base della valutazione delle politiche di reclutamento, effettuate a cadenza quinquennale dall’Agenzia nazionale per la valutazione dell’università e della ricerca (ANVUR)”[2].

In particolare, nel 2016, la quota premiale è stata distribuita come segue[3]:

a) 65% in base ai risultati conseguiti nella Valutazione della qualità della ricerca (VQR 2011 – 2014);

b) 20% in base alla Valutazione delle politiche di reclutamento (VQR 2011 – 2014);

c) 7% in base ai risultati della didattica con specifico riferimento alla componente internazionale;

d) 8% in base ai risultati della didattica con specifico riferimento al numero di studenti regolari che hanno acquisito almeno 20 CFU.

Per dare un’idea delle risorse coinvolte aggiungiamo che nel 2016 il FFO ammontava a più di 7 miliardi di euro, quindi la quota premiale corrispondente al 20% del fondo risultava essere superiore al miliardo di euro.

Nel presente articolo dedichiamo l’attenzione al tema della valutazione della qualità della ricerca (VQR), che costituisce la voce più influente sulla ripartizione della quota premiale (65%); tuttavia tutti gli elementi della valutazione delle università condotta da ANVUR devono essere oggetto dell’attenzione e dell’approfondimento di Rethinking Economics e prossimamente ce ne occuperemo.

Valutazione della ricerca in economia

Dunque, esaminiamo come la valutazione della ricerca è condotta. Innanzitutto, ANVUR ha identificato 14 aree di ricerca[4], delle quali le prime nove sono le cosiddette hard sciences, valutate con strumenti bibliometrici che illustrerò a breve, mentre le ultime cinque rappresentano le soft sciences, valutate prevalentemente con il metodo della peer review, il quale prevede che ciascun “prodotto di ricerca”[5] sia valutato da due valutatori anonimi. C’è però un’eccezione: si tratta dell’area 13, economics and statistics, la quale rientra nelle aree “morbide” ma, nonostante ciò, è prevalentemente valutata con analisi bibliometriche. Per ogni area viene indicato un GEV (gruppo di esperti di valutazione, composto da membri italiani e stranieri); i GEV hanno numerose funzioni cruciali, come la definizione delle liste di riviste da considerare per la valutazione, il loro ordinamento dalla migliore alla peggiore, la scelta del metodo di valutazione della propria area, se bibliometria o peer review e, nel secondo caso, la scelta dei valutatori.

Ogni istituzione – dipartimento o ente di ricerca che sia – deve inviare un numero specifico di “prodotti di ricerca” (ad esempio, nel caso dei dipartimenti, ogni ricercatore o professore deve mandarne due); i GEV devono attribuire poi una valutazione che varia da A (eccellente) a E (limitato), dove A = eccellente (punteggio 1) è assegnato se il prodotto si situa nel 10% più alto della distribuzione della ricerca scientifica internazionale dell’area, B = buono (punteggio 0.7), se il prodotto si situa tra il 70% e il 90% della suddetta distribuzione, C = discreto (punteggio 0.4) per l’intervallo 50-70%, D = accettabile (punteggio 0.1) per l’intervallo 20-50%, E = limitato (punteggio 0) per l’intervallo 0-20%. La lettera F (punteggio 0) è attribuita se il prodotto non è valutabile, in caso, ad esempio, esso non sia incluso fra le tipologie di prodotti valutabili o se il ricercatore non manda il numero richiesto di prodotti.

Il GEV 13 dell’area economica ha scelto come metodo di valutazione la cosiddetta informed peer review[6], che prevede diversi tipi di valutazione per diversi tipi di “prodotti di ricerca”, come illustrato di seguito:

1) Peer review: applicata a monografie, contributi a volume e articoli su riviste non comprese nella lista di riviste del GEV 13. È condotta da valutatori esterni anonimi (di solito due) scelti dai membri del GEV da una lista di studiosi, presenti anche in università straniere, fornita dall’ANVUR. I valutatori, ai fini della valutazione, devono tenere in considerazione tre criteri: originalità, rigore metodologico e impatto potenziale o reale. I giudizi dei valutatori vengono poi convertiti in un punteggio tra quelli elencati più sopra.

2) Valutazione diretta da parte dei membri GEV: è analoga alla peer review ed è applicata alle stesse categorie ma i valutatori appartengono al GEV.

3) Analisi bibliometrica: se un prodotto di ricerca è pubblicato in una rivista contenuta nella lista di riviste del GEV, allora verrà valutato con questa metodologia, il cui funzionamento è spiegato di seguito.

Al metodo misto appena esposto si accompagnano alcune note: un campione casuale di prodotti valutati con bibliometria è anche valutato da revisori peer esterni a scopo statistico e comparativo, sempre mantenendo la valutazione bibliometrica ai fini della VQR. Inoltre, c’è la possibilità per gli autori di richiedere che il proprio prodotto di ricerca venga valutato con peer review invece che con analisi bibliometrica, in caso di aree emergenti, aree di forte specializzazione, carattere interdisciplinare del lavoro (a titolo informativo, nella VQR 2011-2014 queste richieste non sono mai state accettate dal GEV perché non rientravano nei casi previsti).

La valutazione bibliometrica, sulla quale concentriamo la nostra attenzione, essendo il metodo di gran lunga più utilizzato nell’area 13, si compone di due passaggi: il primo consiste nell’identificazione della lista di riviste valutabili con bibliometria. Queste sono prese dal precedente esercizio di valutazione (VQR 2004-2010), dai database di riviste ISI Web of Science (WoS) di Thomas Reuters, Scopus di Elsevier e dalla lista di riviste con le pubblicazioni dei ricercatori italiani nel periodo 2011-2014 fornita da CINECA. L’area 13 è poi suddivisain 5 sotto-aree – Economia Aziendale, Economia, Storia Economica, Generalista, Statistica e Metodi Matematici per le Decisioni – e per ognuna di queste il GEV crea una classifica basata su alcuni indici citazionali prodotti dai database. In particolare, vengono tenuti in considerazione il 5IF, 5 years impact factor, calcolato facendo una media degli impact factor (numero di citazioni medie degli articoli su una rivista) dei 5 anni precedenti e l’AIS, article influence score, che pesa ogni citazione per l’impact factor della rivista da cui provengono. Invece, da Scopus si considerano l’Impact per Publication, IPP e il SCImago Journal Rank,, SJR, che sono rispettivamente analoghi ai due indici di WoS; viene poi tenuto in considerazione l’ h-index, prodotto da Google Scholar o da Publish or Perish, per quelle riviste non incluse nei database sopra citati. L’h-index di una rivista è il numero h più alto tale per cui almeno h articoli in quella rivista sono stati citati h volte ciascuno (esempio per chiarire: se una rivista ha pubblicato 5 articoli citati rispettivamente 17, 9, 6, 3 e 2 volte, avrà un h-index pari a 3, perché almeno 3 articoli sono stati citati 3 volte).

Sulla base di questi indici combinati con un algoritmo le riviste vengono classificate per ogni sotto-area; dalla classificazione viene poi creata una distribuzione in centili e a ciascuna rivista viene assegnata una classe di merito secondo i criteri sopra menzionati (“A” se la rivista è situata nel primo 10%, “B” se è situata nell’intervallo 10%-30% e così via).

Arriviamo così al secondo passaggio, quello che prevede che a ogni articolo o prodotto di ricerca venga assegnata automaticamente la classe di merito della rivista in cui l’articolo è stato pubblicato. Se però l’articolo in questione ha un numero di citazioni medie annuali dall’anno di pubblicazione al 29 febbraio 2016 superiore al numero di citazioni medie annuale (calcolato con uno degli indici citazionali annuali sopra considerati) della sua rivista, allora l’articolo può essere assegnato a una classe di merito più alta. Tuttavia, questa possibilità vale solo per l’1% di tutti i prodotti di ricerca considerati. Inoltre, lo stesso ragionamento non si applica nel caso inverso in cui un articolo abbia un numero di citazioni annuali inferiori all’impact factor della propria rivista. In questo conteggio anche le autocitazioni sono considerate.

Riassumendo, la classe di merito finale dei prodotti di ricerca dipende sostanzialmente dalla classe di merito della rivista in cui esso è pubblicato, eccezion fatta per quell’1% di articoli dei quali è tenuto in considerazione anche il loro numero di citazioni.

La metodologia appena illustrata presenta molti elementi critici dei qualicercheremo di identificarne alcuni, soprattutto alla luce di quello che è l’interesse principale di Rethinking Economics, cioè la promozione del pluralismo all’interno dell’area economica.

Aspetti critici della valutazione della ricerca

Innanzitutto, un punto molto problematico consiste nel fatto che gli articoli sono valutati quasi esclusivamente sulla base dell’indice citazionale della rivista nella quale vengono pubblicati: ciò significa che il contenuto viene giudicato sulla base del contenitore, nonostante un indice “alto” non sia garanzia di qualità degli articoli. Questo è dovuto al fatto che il suddetto indice non mostra, essendo un valore medio, le differenze di citazioni degli articoli, le quali sono invece rilevanti: normalmente gli articoli nella metà superiore in quanto a citazioni sono citati in media 10 volte quelli nella metà inferiore[7]. Inoltre, il numero di citazioni dipende da molti fattori estranei alla qualità dell’articolo in sé: il campo specifico di ricerca dell’articolo e la sua dimensione, il numero di auto citazioni e la tipologia dell’articolo ad esempio. Infatti, i review articles o gli articoli lunghi ricevono normalmente più citazioni; c’è inoltre un vantaggio per gli articoli scritti in lingua inglese e i database delle riviste sono dominati da pubblicazioni americane. Al di là di queste osservazioni, è importante segnalare anche che questa metodologia è in contraddizione con quanto previsto dalla stessa normativa ANVUR, che infatti parla di una valutazione del singolo articolo che tenga in considerazione tre elementi: l’originalità, il rigore metodologico e l’impatto, il quale dunque costituisce solo una degli aspetti da tenere in considerazione.

Un altro elemento di debolezza riguarda l’opportunità che i GEV utilizzino dei rankings delle riviste creati da loro solo sulla base dei dati bibliometrici: innanzitutto è da sottolineare il fatto che se questi dati bibliometrici a livello di rivista sono disponibili, per forza di cose lo saranno anche i dati a livello del singolo articolo. Inoltre, l’uso dei rankings potrebbe avere effetti negativi sulla ricerca, quali la promozione di argomenti “di moda” (che hanno accesso a riviste con alto impact factor) e dunque la poca considerazione per quegli argomenti che invece, al momento della valutazione, non sono così “fashionable” per ragioni contingenti. Dunque, questo tipo di classifiche può essere limitante del pluralismo nella ricerca e rischia di scoraggiare i giovani ricercatori dall’impegnarsi negli ambiti di ricerca meno considerati al momento, creando un circolo vizioso nella formazione dei futuri professori.

Un altro problema rilevante consiste nella discriminazione nei confronti di alcune aree di ricerca che è diretta conseguenza della metodologia adottata dal GEV 13. Infatti, come mostrato sopra, l’area 13 è divisa in cinque sotto-aree (Economia Aziendale, Economia, Storia Economica, Generalista, Statistica e Metodi Matematici per le Decisioni), per ognuna delle quali è stilata una classifica delle riviste appartenenti a quell’ambito. Questa suddivisione, tuttavia, appare del tutto inadeguata a dare giusto rilievo a tutte le articolazioni dell’area economica; pretendere una maggiore articolazione delle sotto aree non costituisce un vezzo intellettuale ma è fondamentale per le ragioni che seguono. Creare più classifiche delle riviste all’interno dell’area 13, una per sotto-area, serve a non paragonare aree che, in quanto a indici citazionali, non sono paragonabili: infatti, come già sottolineato, questi indici variano da area a area perché dipendono da molto fattori tra cui, ad esempio, la dimensione dell’area di ricerca e le strategie comunicative adottate. Tuttavia è essenziale che la divisione in sotto-aree tenga veramente conto delle suddette differenze. Ciò, invece, non emerge dalla divisione adottata dal GEV 13 nella VQR 2011-2014, dove, infatti, vengono messe insieme sotto-aree non paragonabili. Lampante è il caso della sotto-area storia economica che include anche storia del pensiero economico, nonostante le due aree abbiano indici citazionali molto diversi, con la conseguenza che inizialmente nessuna rivista di storia del pensiero economico risultava in classe A, proprio perché le riviste di questo ambito avevano indici citazionali sistematicamente inferiori a quelli di storia economica. Questo chiaramente comporta una discriminazione inaccettabile e ingiustificata nei confronti di alcune aree di ricerca.

Altri problemi riguardano ancora la metodologia adottata dal GEV: ad esempio la corrispondenza tra gli indicidi impatto prodotti da WoS o Elsevier con l’h-index prodotto da Google Scholar o Publish or Perish. Molte riviste incluse nella lista creata dal GEV 13 non sono presenti nei due database WoS e Elsevier, dunque non hanno un indice citazionale prodotto da essi, in questi casi il GEV ha tenuto in considerazione l’h-index. Il problema è che l’h-index non sembra avere una buona corrispondenza con gli altri indici: infatti, è stato calcolato da ROARS (associazione di professori che si occupa di fare informazione in modo critico sulla valutazione e sulle politiche della ricerca) che per quelle riviste che hanno sia l’h index sia l’IPP di Scopus (ma non l’IF5 di WoS), il primo è diverso dal secondo nel 44% dei casi e peggiore nei 2/3 di questi[8]. Questo problema è rilevante per quelle riviste indicizzate esclusivamente da Google, che sono 892, su un totale di 2715; inoltre è un problema diffuso per le riviste italiane, delle quali ben 127 su 155 sono indicizzate esclusivamente da Google[9]. Per le riviste che hanno più indici citazionali, verrà scelto il valore migliore ai fini della valutazione, mentre le altre sfortunate (e numerose) dovranno accontentarsi dell’indice di Google. Il problema metodologico sottostante a queste criticità è che Google – a differenza di ISI WoS e Scopus – non definisce il database da cui attinge le informazioni per la costruzione degli indici.

Infine, un’altra criticità riguarda il diverso trattamento riservato alle riviste italiane: se meno di 20-25 riviste italiane rientrano nelle classi di merito A, B o C, il GEV promuoverà alcune riviste italiane a una classe superiore in modo da avere circa 25 riviste italiane nelle prime tre classi. Per quanto possa avere senso il tentativo di “aiutare” le riviste italiane, svantaggiate dagli indici citazionali per la lingua utilizzata, non sembra il modo migliore di ottenere dei buoni risultati: non è chiara, infatti, la scelta del numero 25 e, analizzando le promozioni decise dal GEV, emerge che le riviste passate a una classe di merito superiore non sempre erano le migliori in quanto a indici citazionali.

In conclusione, in questo articolo abbiamo provato a mostrare alcuni punti critici della valutazione della qualità della ricerca che, come menzionato nell’introduzione, poi va ad influenzare fortemente la distribuzione della quota premiale del fondo di finanziamento ordinario. Rethinking Economics si occupa principalmente dell’insegnamento dell’economia nelle università, ambendo a una modifica dei curriculum, i quali si pensa debbano inserire materie obbligatorie quali storia del pensiero economico. Inoltre, un altro punto su cui ci spendiamo molto è la formazione “alternativa” degli studenti: attraverso corsi, seminari e conferenze si cerca di diffondere la consapevolezza che la teoria cosiddetta dominante non è l’unica teoria esistente in economia, ma anzi è fondamentale per la formazione di uno studioso di economia la conoscenza delle altre molteplici teorie e i conflitti esistenti fra esse. Oltre a tutto ciò, d’altra parte, sembra emergere la necessità di occuparsi anche degli aspetti che regolano la vita universitaria a livello più istituzionale: da qui deriva l’impegno a conoscere e, ove necessario, criticare duramente l’operato dell’ANVUR con particolare attenzione al GEV 13. Infatti, è importante riflettere sul fatto che, per quanto noi riteniamo che il conflitto delle idee rifletta il conflitto esistente nella società, la cristallizzazione di questo confitto a livello istituzionale rischia di peggiorare la situazione innescando un circolo vizioso. Nel nostro caso specifico c’è il rischio che sempre meno soldi vadano a quei dipartimenti “alternativi”, che i giovani siano scoraggiati dall’intraprendere certi ambiti di ricerca che al momento sono minoritari e, dunque, che i futuri professori siano sempre meno inclini ad avere un atteggiamento perlomeno aperto nei confronti di diverse scuole del pensiero, inficiando infine la nostra causa a favore un insegnamento plurale dell’economia. Da questo breve articolo speriamo nasca un’ampia collaborazione con gli studenti, i ricercatori e i professori.

[1] Art. 2 del decreto-legge 10 novembre 2008, n. 180, convertito con modificazioni dalla legge 9 gennaio 2009, n. 1.

[2] Decreto-legge 21 giugno 2013, n. 69 (cosiddetto decreto del fare) convertito con modificazioni dalla l. 9 agosto 2013, n. 98, che l’ha determinata (art. 60).

[3]Decreto Ministeriale 29 dicembre 2016 n. 998http://attiministeriali.miur.it/anno-2016/dicembre/dm-29122016.aspx

[4] 1- mathematical and computer science, 2- physical science, 3- chemistry, 4- earth science, 5- biological sciences, 6- medical science, 7- agricultural and veterinary science, 8a- architecture, 8b- engineering, 9- industrial engineering, 10- artistic, literature etc, 11a- history and philosophy, 11b- psychology, 12- law, 13- economics and statistics, 14- social and political sciences.

[5] Così le ricerche vengono chiamate dall’ANVUR nei vari documenti ufficiali (ad esempio qui http://www.anvur.org/attachments/article/26/Linee%20Guida%20SUA_RD%20ALLEGATO%20A.pdf). Una breve nota polemica: se le parole sono importanti non si può non notare come questa espressione rimandi a una concezione economistica della ricerca, che effettivamente emerge anche dai metodi utilizzati per la valutazione.

[6] Rapporto finale di area Gruppo di Esperti della Valutazione dell’Area 13 (GEV13).

[7] “Why the impact factor of journals should not be used for evaluating research” di Per O Seglen.

[8] “Del rigore metodologico del Gev 13” di Daniela Ciccolella.

[9] A queste 127 riviste sono state assegnate le seguenti classi di merito: Eccellente [nessuna], Elevato [nessuna], Discreto [5], Accettabile [30 riviste] o Limitato [92 riviste].

Rethinking Economics Italia

La valutazione della ricerca in economia: un’analisi critica

DiRoberta Terranova

Related Posts:

Di Roberta Terranova

Articoli correlati

Nasce la Rete Italiana Post-Keynesiana

La traduzione del paper di Steve Keen sul cambiamento climatico

Cos’è la teoria post-keynesiana: princìpi e politica economica – Parte IV

You missed

Understanding the redistributive effects of recent Euro area inflation

Catch-22? A Brief Study of the Implications of Climate Action in Latin America

Economy of Wellbeing – measuring economic performance beyond GDP

A call for disinflation policies beyond monetary measures