La differenza tra correlazione e causalità: il problema dell’interpretazione dei dati
Nell’analisi dei dati scientifici, uno degli errori più insidiosi è confondere una correlazione tra due fenomeni con un rapporto di causa-effetto. Il motto “correlation does not imply causation” è diventato emblematico proprio per sottolineare che anche quando due variabili mostrano un andamento sincronizzato, non è detto che una sia la causa dell’altra: potrebbero interagire in modi più complessi o dipendere entrambe da un terzo fattore. Questo problema di interpretazione affligge sia i non addetti ai lavori sia, talvolta, gli stessi ricercatori, soprattutto in campi dove gli esperimenti controllati sono difficili e si ricorre a studi osservazionali. Comprendere la differenza tra correlazione e causalità è cruciale per evitare conclusioni errate e politiche mal indirizzate. Ad esempio, osservando che le persone con una certa dieta presentano una minor incidenza di una malattia, si potrebbe affrettatamente inferire che la dieta “protegge” da quella malattia; ma potrebbe essere che chi segue quella dieta abbia anche altri comportamenti salutari (attività fisica, controlli medici regolari) che sono i veri fattori protettivi.
Dal punto di vista formale, perché si possa parlare di causazione devono essere soddisfatte alcune condizioni. In primo luogo, la causa deve precedere l’effetto nel tempo: se A causa B, A deve verificarsi cronologicamente prima di B. In secondo luogo, causa ed effetto devono essere effettivamente correlati sul piano empirico: se A cambia, anche B dovrebbe cambiare in modo consistente. Infine – ed è la condizione spesso più difficile – il legame tra A e B non deve essere dovuto a un terzo fattore nascosto, detto confondente, che influenza entrambe le variabili. Quest’ultimo punto è quello che genera più spesso trabocchetti interpretativi. Ad esempio, nei paesi in cui c’è un alto consumo di gelati si registra anche un alto numero di annegamenti: le due variabili sono correlate, ma ovviamente mangiare gelati non provoca annegamenti. La causa comune è il clima caldo (terza variabile confondente) che sia aumenta il consumo di gelati sia spinge più persone a nuotare, con conseguente aumento degli incidenti in acqua. Molti esempi analoghi – spesso citati in tono umoristico – mostrano come correlazioni spurie possano abbondare quando si analizzano grandi insiemi di dati: dal numero di film con Nicholas Cage usciti in un anno e il numero di cadute in piscina, fino alla correlazione tra la produzione di miele e i divorzi in un dato paese. Senza un’analisi accurata, si rischia di scambiare coincidenze per legami causali reali.
Il metodo scientifico affronta questo problema attraverso l’uso di esperimenti controllati e di tecniche statistiche avanzate per inferire causalità. L’esperimento controllato (ove possibile) è lo strumento più diretto: mantenendo costanti tutte le condizioni tranne il fattore di interesse, e osservando una differenza di risultati, si può attribuire con confidenza l’effetto a quella causa manipolata. Ad esempio, per testare se un farmaco causa effettivamente un miglioramento clinico, si allestiscono trial clinici randomizzati dove solo il gruppo sperimentale riceve il farmaco e il gruppo di controllo riceve un placebo, in condizioni altrimenti identiche: se emergono differenze sistematiche di salute, la migliore spiegazione è l’effetto causale del farmaco. In assenza di questa possibilità (ad esempio per questioni etiche o pratiche), i ricercatori si affidano a metodi statistici come l’analisi multivariata, che tenta di controllare i fattori confondenti noti, o a disegni di studio specifici (studi longitudinali, studi caso-controllo, natural experiments) che, pur non essendo esperimenti “puri”, cercano di avvicinarsi al ragionamento causale. Un esempio storico celebre è l’epidemiologia del fumo: molto prima che fosse possibile un trial controllato (non si può eticamente chiedere ad alcuni soggetti di fumare per decenni), studi osservazionali accurati mostrarono che i fumatori hanno molte più probabilità di sviluppare cancro al polmone, e vennero raccolte sufficienti evidenze per concludere un nesso causale (anche grazie all’ausilio di criteri come quelli di Bradford Hill, che includono la forza dell’associazione, la relazione dose-risposta, la coerenza con altri studi, ecc.).
Sottolineare la distinzione tra correlazione e causalità ha implicazioni profonde in tutte le scienze. In ambito economico-sociale, ad esempio, politiche pubbliche disegnate sulla base di correlazioni superficiali possono fallire. Si consideri un comune errore: notando che nei quartieri con più agenti di polizia si registra un tasso di criminalità più elevato, qualcuno potrebbe concludere che “la polizia causa la criminalità” (poiché sono correlate positivamente). In realtà, naturalmente, la presenza maggiore di polizia è un effetto (non la causa) del più alto tasso di criminalità in quei quartieri – un caso di causalità invertita. Questo esempio evidenzia l’importanza di ragionare sul senso delle relazioni statistiche: spesso, un rapporto osservato può significare A causa B, ma anche B causa A (reverse causality) o C causa sia A che B. Studi più approfonditi o dati aggiuntivi possono aiutare a discernere la direzione giusta. Nel caso appena citato, se la polizia fosse la causa, un aumento deliberato di forze dell’ordine in un’area dovrebbe portare a un aumento successivo dei reati; se invece è la criminalità a guidare la presenza di polizia, l’aumento di poliziotti seguirebbe l’aumento di crimini. Questo tipo di analisi temporale aiuta a sciogliere l’ambiguità, così come l’uso di modelli statistici con variabili strumentali o tecniche simili concepite per isolare effetti causali.
Nella pratica quotidiana della ricerca, i ricercatori sono consapevoli di questi rischi e dedicano molta attenzione all’interpretazione prudente dei dati. Negli articoli scientifici, la sezione “Discussione” distingue spesso tra correlazioni osservate e possibili spiegazioni causali, invocando ulteriori studi per confermare le ipotesi di causalità. Inoltre, la collaborazione tra discipline ha migliorato la capacità di affrontare il problema: ad esempio, l’incrocio tra informatica e statistica ha dato vita alla causal discovery, un campo che sviluppa algoritmi in grado di suggerire strutture causali possibili a partire dai dati, utilizzando assunzioni aggiuntive e conoscenze di dominio. Uno dei principali teorici moderni della causalità, Judea Pearl, ha introdotto strumenti formali che aiutano a esprimere e verificare le relazioni di causa in modo più rigoroso e trasparente di quanto fosse possibile con la sola correlazione statistica. Tutto ciò converge verso un principio guida: l’interpretazione causale deve essere conquistata con fatica, attraverso metodi appropriati, e non semplicemente assunta guardando un coefficiente di correlazione. Il metodo scientifico insegna a diffidare delle conclusioni affrettate: di fronte a dati correlazionali, la domanda da porsi è sempre “c’è un’altra spiegazione possibile?”. Spesso la risposta è sì, e spetta all’ingegnosità dell’indagine scientifica ideare esperimenti o raccolte di dati aggiuntive per confermare o smentire il nesso causale ipotizzato. Solo così si evitano gli abbagli e si costruisce conoscenza realmente utile e affidabile.
Fonti
S. V. Ioannidis, Int. Orthop. 47, 939 (2023) (How to Distinguish Correlation from Causation in Orthopaedic Research - PMC); A. Deaton & N. Cartwright, Soc. Sci. Med. 210, 2 (2018); J. Pearl et al., PNAS 115(20), 5052 (2018).