Peer review e riproducibilità: garanzie di affidabilità o strumenti da migliorare?

mar 22, 2025

damien hirst: beautiful sunflower panerai painting

La credibilità della scienza si basa tradizionalmente su due pilastri: la revisione paritaria (peer review) degli studi prima della pubblicazione e la riproducibilità indipendente dei risultati dopo la pubblicazione. Attraverso la peer review, la comunità scientifica effettua un controllo di qualità preventivo, valutando in modo anonimo e critico ogni manoscritto per verificarne la solidità metodologica, la validità delle analisi e l’originalità dei contributi. Allo stesso tempo, il principio di riproducibilità impone che altri ricercatori, replicando esperimenti o osservazioni, ottengano esiti analoghi a quelli riportati, a conferma che i fenomeni descritti non siano frutto del caso o di condizioni particolari. Questi meccanismi dovrebbero fungere da garanzia di affidabilità: idealmente, solo studi rigorosi e veri dovrebbero superare il filtro della peer review, e solo risultati genuini dovrebbero resistere alla prova del tempo tramite replicazione. Eppure, negli ultimi anni, la comunità scientifica ha dovuto interrogarsi sull’effettiva efficacia di tali strumenti, di fronte a una serie di fallimenti clamorosi e a quella che è stata definita una “crisi di riproducibilità” in diversi campi.

La peer review, introdotta sistematicamente nelle riviste scientifiche a partire dal XX secolo, ha lo scopo di garantire che ogni studio soddisfi gli standard di rigore condivisi dalla comunità prima di diventare parte della letteratura accreditata. In questo processo, due o più valutatori esterni e indipendenti esaminano il lavoro e suggeriscono migliorie o, se necessario, ne raccomandano il rifiuto qualora presentasse difetti sostanziali. L’idea è che il giudizio di più esperti riduca il rischio di errori o affermazioni infondate: un articolo sopravvive alla revisione solo se convince altri scienziati competenti. Si tratta quindi di un controllo di qualità collegiale che riflette l’ethos collaborativo della scienza. Allo stesso modo, la riproducibilità è considerata un criterio fondamentale: un esperimento scientifico deve poter essere ripetuto, ottenendo risultati compatibili, da chiunque disponga delle stesse competenze e attrezzature. Questo principio fu espresso icasticamente dal fisico Richard Feynman: se un risultato non può essere riprodotto da altri, allora non è realmente comprovato. In sintesi, peer review e replicazione rappresentano, almeno in teoria, i cardini attraverso cui la scienza si auto-verifica e mantiene affidabilità nel tempo.

Tuttavia, l’esperienza degli ultimi decenni ha evidenziato varie criticità sia nella peer review sia nella riproducibilità. Numerosi studi pubblicati e formalmente validati dai revisori si sono rivelati difficili o impossibili da replicare da altri gruppi. Particolarmente noto è il caso della psicologia sperimentale: nel 2015 un ampio progetto internazionale coordinato dall’Open Science Collaboration tentò di replicare 100 studi pubblicati in riviste prestigiose, riuscendo a ottenere risultati significativi simili agli originali in solo il 36% dei casi. Anche in biologia e medicina, analisi condotte da centri di ricerca industriali hanno riportato tassi di riproducibilità allarmantemente bassi (talora inferiori al 25% in ambito preclinico). Un sondaggio internazionale del 2016 su 1.576 ricercatori di varie discipline ha evidenziato che oltre il 70% di essi aveva provato senza successo a replicare gli esperimenti di un collega, e più della metà aveva fallito nel riprodurre risultati delle proprie ricerche. Questi dati suggeriscono che il passaggio in peer review non garantisce affatto che un risultato sia robusto: molti effetti iniziali possono essere falsi positivi, esito di campioni piccoli o di analisi statistiche poco rigorose, che sfuggono al controllo dei revisori. Il problema non è limitato a un singolo campo: si parla ormai di replication crisis a livello trasversale, e la comunità scientifica sta prendendo coscienza del fatto che i meccanismi di verifica tradizionali necessitano di un rafforzamento.

Parallelamente, sono emerse evidenze che mettono in discussione l’efficacia e l’accuratezza del processo di peer review stesso. Studi metascientifici hanno provato a misurare il grado di accordo tra diversi revisori sul medesimo manoscritto, rivelando risultati poco incoraggianti. In una meta-analisi su 48 studi riguardanti la valutazione tra pari, il coefficiente di concordanza (Cohen’s Kappa) medio tra i giudizi dei revisori è risultato di appena 0,17, un valore che corrisponde a un accordo soltanto leggermente superiore al caso. In pratica, due referee indipendenti spesso danno valutazioni opposte dello stesso articolo: ciò indica che la peer review può essere influenzata da forte soggettività, bias personali o differenze di competenza, e che il suo esito ha anche un margine di casualità. Inoltre, vari studi hanno documentato distorsioni sistematiche nel processo: ad esempio, nelle revisioni single-blind i lavori firmati da autori affermati o afferenti a istituzioni prestigiose tendono a ricevere giudizi più benevoli rispetto a quelli di autori meno noti (effetto reputazione). Esistono persino casi di peer review fallita, in cui articoli contenenti errori grossolani o dati falsificati sono riusciti a superare il filtro, venendo poi ritrattati solo a posteriori. Tali vicende alimentano la percezione che il sistema attuale di controllo abbia margini di miglioramento e non sia sempre all’altezza di garantire la qualità della letteratura scientifica.

La combinazione di bassa riproducibilità e lacune nella peer review ha spinto molti a chiedersi come innovare questi strumenti per rafforzare l’affidabilità della scienza. Numerose iniziative mirano a rendere la peer review più rigorosa e trasparente. Una proposta è quella di incentivare la condivisione completa di dati e codici insieme agli articoli, così che i revisori e la comunità possano controllare direttamente le analisi svolte dagli autori. In quest’ottica è nata la Peer Reviewers’ Openness Initiative, che invita i revisori a richiedere agli autori, come condizione per una valutazione favorevole, l’accesso aperto ai dati grezzi e ai materiali di ricerca. Un’altra direzione è il ricorso a revisioni specialistiche: ad esempio, affiancare al tradizionale referee scientifico anche revisori esperti di statistica o di metodologia, per individuare errori tecnici sfuggenti. Sul fronte della riproducibilità, si stanno affermando nuove pratiche come la registrazione anticipata degli studi (che impegna i ricercatori a dichiarare in anticipo ipotesi e piani di analisi, prevenendo aggiustamenti ex post dei risultati) e la pubblicazione di risultati nulli o di replicazioni. Alcuni finanziatori e istituzioni hanno inoltre iniziato a stanziare fondi specifici per progetti di replica e per la verifica indipendente di risultati chiave, riconoscendo che la scienza avanza in modo più solido quando i risultati vengono confermati da più fonti. Tali misure stanno incentivando un cambio culturale: la verifica e la conferma indipendente stanno diventando parte integrante e valorizzata dell’impresa scientifica, e non più attività marginali.

In conclusione, peer review e riproducibilità restano capisaldi imprescindibili del metodo scientifico, ma l’esperienza recente mostra che devono essere continuamente perfezionati per adempiere pienamente al loro ruolo. Piuttosto che considerarli garanzie assolute di affidabilità, la comunità scientifica oggi li interpreta come pratiche che, sebbene imperfette, possono e devono essere migliorate con interventi mirati. L’obiettivo è duplice: da un lato rendere la peer review più equa, accurata e trasparente, eliminando per quanto possibile pregiudizi e arbitrarietà; dall’altro, integrare la cultura scientifica con una maggiore enfasi sulla verifica e sulla replicazione, così che ogni risultato importante venga messo alla prova del tempo e dell’altrui esperienza sperimentale. Solo attraverso questa evoluzione la scienza potrà rafforzare la propria attendibilità, mostrando che i suoi meccanismi di controllo interno sanno autocorreggersi e adattarsi alle sfide emergenti. La risposta alla domanda iniziale è quindi duplice: peer review e riproducibilità sono tuttora strumenti fondamentali di garanzia, ma la loro efficacia dipende dalla volontà della comunità di riconoscerne i limiti e di investire sforzi continui per migliorarli.

Fonti

Open Science Collaboration (Science, 2015); L. Bornmann et al., PLoS ONE 5(12): e14331 (2010); J. P. Tennant & T. Ross-Hellauer, Res. Integr. Peer Rev. 5:6 (2020); M. Baker, Nature 533, 452 (2016).