G. M. Marchetti
22-23 febbraio 2017
In cui si parla
di relazioni causali
di dati aggregati e disaggregati
di casi paradossali
dei Simpson (!)
e… di discriminazioni
Perché studiare statistica? Perché cercare di capire cause ed effetti?
Per dare un senso ai dati.
la malaria è causata dalla “mala aria” o trasmessa dalle zanzare?
Prefereirei scoprire una singola relazione causale che essere il re della Persia (Democrito)
L’analisi dei dati permette di studiare le associazioni tra fenomeni
Putroppo questo non basta per capire le relazioni causali
Un gruppo di 700 pazienti ha una malattia. In ospedale viene data loro l’opzione di provare un nuovo farmaco.
Ecco le statistiche sui tassi di guarigione dei pazienti.
350 hanno scelto di prendere il farmaco e 350 hanno scelto di non usarlo.
Farmaco usato | Farmaco non usato |
---|---|
273 di 350 guariti | 289 di 350 guariti |
78 % | 83 % |
Il tasso di guarigione è migliore per i pazienti che NON hanno scelto il nuovo farmaco.
Genere | Farmaco usato | Farmaco non usato |
---|---|---|
Maschi | 81 su 87 guariti (93%) | 200 su 270 guariti (87%) |
Femmine | 192 su 263 guariti (73%) | 55 su 80 guariti (69%) |
Tutti | 273 su 350 guariti (78%) | 289 su 350 guariti (83%) |
Per le femmine il tasso di guarigione è migliore se si prende il farmaco
Invece nel complesso il tasso di guarigione è migliore per i pazienti che NON hanno scelto il nuovo farmaco.
Dati i risultati di questo studio un dottore dovrebbe prescrivere il farmaco a una donna? A un uomo?
A livello del sistema sanitario nazionale è necessario valutare l’efficacia del farmaco per la popolazione in generale: si deve usare il tasso di guarigione complessivo o quelli a livello di sottopopolazione maschile o femminile?
Non Homer Simpson. Ecco vero Simpson
C’è associazione tra fumo e genere? La proporzione di fumatori nella classe è la stessa tra maschi e femmine?
Genere | Fuma | Non fuma | Totale |
---|---|---|---|
Maschio | 11 | 4 | 15 |
Femmina | 1 | 4 | 5 |
Totale | 12 | 8 | 20 |
Proporzione di femmine che fumano \(1/5 = 0.20 = 20\%\)
Proporzione di fumatori: \(12/20 = 0.6 = 60\%\).
Genere | Fuma | Non fuma | Totale | Proporzioni |
---|---|---|---|---|
Maschio | 11 | 4 | 15 | 0.73 |
Femmina | 1 | 4 | 5 | 0.20 |
Totale | 12 | 8 | 20 | 0.60 |
Ci sono probabilità non condizionate
\[
\Pr(fumo) = \frac{n.\; fumatori}{n. \; studenti} = 12/20 = 0.60
\]
e probabilità condizionate \[ \Pr(fumo \mid Maschio) = \frac{n. fumatori\; maschi}{n.\; maschi} = 11/15 = 0.73 \]
NOTA: La condizione è scritta DOPO il segno |
In questo esempio la proporzione di fumatrici è diversa delle proporzione di fumatori e quindi c’è associazione tra fumo e genere.
Genere | Fuma | Non fuma | Totale | Proporzioni |
---|---|---|---|---|
Maschio | 9 | 6 | 15 | 0.60 |
Femmina | 3 | 2 | 5 | 0.60 |
Totale | 12 | 8 | 20 | 0.60 |
Possiamo semplicemente usare la differenza tra le porporzioni di fumatori e fumatrici \[ 0.73 - 0.20 = 0.53 \]
oppure il rapporto \[ \frac{0.73}{0.20} = 3.65 \] la proporzione di fumatori è più di tre volte la proporzione di fumatrici.
Anche se c’è associazione non vuol dire che ci sia una relazione causale tra genere e fumo.
Se due variabili sono indipendenti sicuramente non ci può essere una relazione fra di esse.
\[ \begin{array}{lrrrr}\hline Vittima & Accusato & Pena\; capitale & Ergastolo & Totale & Proporzione\\ \hline bianco & bianco & 5 &45 & 50& 0.10\\ & nero & 2 & 8 & 10& 0.20\\ \hline nero & bianco & 2 &18 & 20& 0.10\\ & nero & 1 &19 & 20& 0.05 \\\hline \end{array} \]
Nella regione X vogliamo studiare se c’è discriminazione tra laureati maschi e femmine nel trovare lavoro.
La probabilità di lavorare è più alta per i maschi che per le femmine.
Abbiamo anche dati disaggregati per laurea, in Ingegneria e Lettere. \[ \begin{array}{r|ccc|ccc} & Lettere & & & Ingegneria & & \\ & Femmina & Maschio & & Femmina & Maschio & \\ Non\;lavora & 18 & 12 & & 2 & 8 & \\ Lavora & 12 & 8 & & 8 & 32 & \\ Totale & 30 & 20 & & 10 & 40 & \\ \end{array} \]
C’è una relazione apparente perché le femmine sono in maggioranza laureate in lettere e i maschi in ingegneria e la probabilità di lavorare è maggiore per i laureati in ingegneria.
In cui si parla:
di esperimenti controllati
di relazioni lineari approssimate
di correlazione e di regressione
e riappare … il solito Simpson.
Il fisico scozzese Forbes cercò di stimare l’altezza sul livello del mare a partire dalla misura del punto di ebollizione dell’acqua.
L’altitudine si poteva ricavare dalla relazione con la pressione atmosferica. Ma un barometro era uno strumento di misura difficile da trasportare.
I diverse zone delle Alpi misurò \(Y\): la pressione atmosferica (con un barometro, in mm di Hg) e \(X\): il punto di ebollizione dell’acqua (in gradi Celsius)
temperatura:
90.28 90.17 92.17 92.44 93 93.28 93.83 93.94 94.11 94.06
95.33 95.89 98.61 98.11 99.28 99.94 100.1
pressione:
528.1 528.1 569 575.8 588 593.1 606.8 609.3 610.1 609.9
638.6 674.9 723.6 705.1 737.6 759 763.5
A giudicare dallo scatter sembra i dati seguano una legge lineare \[ Pressione \approx a + b \cdot (Punto\; di\; ebollizione) \]
I punti non sono perfettamente allineati perché ci sono imprecisioni dovute ad errori di misura
Ecco lo scatter (migliore?)
Noi per semplicità useremo la nostra legge lineare come approssimazione.
Dopo vedremo meglio come si calcola.
sesso | scarpe | altezza |
---|---|---|
m | 39 | 170 |
f | 40 | 170 |
f | 37 | 162 |
f | 38 | 160 |
f | 38 | 157 |
m | 42 | 169 |
Retta di regressione ottenuta col metodo dei minimi quadrati
Interpretazione: \(altezza = 60.9 + 2.7 \cdot n.\; scarpa\)
\(b = 2.7\) cm in più per ogni numero di scarpa in più.
Disegnare e adattare una retta di regressione con questa Applet
Indovina la correlazione (giochino virale!) guess the correlation
Se il coefficiente di correlazione è nullo si dice che \(X\) e \(Y\) sono incorrelate
È un modo per dire che non esiste una relazione lineare fra le variabili
Verifichiamo in pratica!
In una classe si fa un dettato in italiano e si dà il voto \(y\) (in base agli errori commessi). Poi si calcola la correlazione tra peso \(x\) dello studente e il voto \(y\)
???? Non ha senso!
Non ha senso, ma se la classe è composta di bambini delle elementari, ragazzi delle medie e delle superiori si troverà probabilmente una correlazione positiva tra \(x\) e \(y\)!
Questo ci ricorda che un correlazione lineare non implica una relazione di causa-effetto
Adesso consideriamo studenti della stessa età delle superiori. È noto che le ragazze pesano in media meno dei ragazzi, ma hanno voti in media più alti. Stavolta troviamo una correlazione negativa!