25.4. 2008 14:51 Recenzie de carte de Stephen T. Ziliak și Deirdre N. McCloskey: Cultul semnificației statistice

Imaginați-vă două medicamente pentru slăbit care au aceleași efecte secundare și sunt la fel de scumpe. Pentru unul, pierderea medie în greutate este de 20 de kilograme în jumătate de an, cu o abatere medie de 10 kilograme. În al doilea rând, pierderea medie este de cinci kilograme în jumătate de an, iar deviația medie este de un kilogram. Deci, vă puteți aștepta să pierdeți ceva între 10 și 30 de kilograme cu prima pastilă, în timp ce cu cea de-a doua veți pierde între patru și șase kilograme.
Care pastilă este mai bună? O persoană care dorește să slăbească ar alege-o cu siguranță pe prima. Un economist academic ar spune că a doua pilulă este „statistic mai semnificativă”. În cele mai multe situații, accentul pus pe precizie, nu pe amploarea efectului general, oferă o viziune distorsionată a realității. Stephen Ziliak și Deirdre McCloskey susțin că acest accent nejustificat este un neajuns major al metodelor empirice moderne în științele sociale.
Semnificație statistică
Sursa: Vot pentru acest articol pe vybrali.sme.sk
Stephen T. Ziliak și Deirdre N. McCloskey: Cultul semnificației statistice. Cum ne costă o eroare standard locuri de muncă, justiție și vieți. Ann Arbor: University of Michigan Press (2008), 320 p.
Semnificația statistică este un termen care se referă la analiza de regresie. În cadrul acestuia, cercetătorii încearcă să explice o variabilă dependentă (cum ar fi creșterea economică) printr-o combinație de alte variabile (cum ar fi intensitatea cercetării științifice, alfabetizarea populației sau calitatea instituțiilor). Analiza de regresie oferă astfel un set de estimări din care se poate deduce efectul cercetării, al alfabetizării sau al instituțiilor asupra creșterii economice.
Slujba tradițională a celor care lucrează cu analiza de regresie este de a testa semnificația statistică - dacă estimarea efectului cercetării științifice, să zicem, nu poate fi explicată doar ca o consecință a întâmplării. Dacă o astfel de ipoteză nu poate fi respinsă, variabila este considerată statistic nesemnificativă. Dacă o astfel de ipoteză poate fi respinsă, atunci impactul cercetării asupra creșterii economice este considerat a fi mai mult decât o muncă întâmplătoare.
Dar testarea mecanică a semnificației statistice poate ascunde semnificația reală, „substanțială”. La fel ca în exemplul pastilelor dietetice, în economia empirică poate exista o situație în care un efect potențial mare ni se pare nesemnificativ statistic. De exemplu, deoarece variabila relevantă este măsurată foarte inexact.
Simțul comun spune că amploarea unui efect este mai importantă decât semnificația sa statistică. Fizicienii înțeleg foarte bine acest lucru și primul lor reflex este întotdeauna că întreabă despre amploarea influenței studiate. În fizică, multe relații semnificative statistic sunt considerate neglijabile dacă amploarea efectelor este prea mică. Dimpotrivă, în economie, multe efecte mici și neglijabile sunt văzute ca relații semnificative statistic. Și prea des, efectele potențial semnificative care arată o inexactitate mare sunt ignorate. Este crucial să ne dăm seama că semnificația statistică în sine nu este nici o condiție necesară, nici suficientă pentru semnificația reală a variabilei observate.
Greșeală școlară
În plus, testarea necugetată a semnificației statistice ascunde o capcană sub forma unei erori școlare - confuzia a două tipuri diferite de probabilitate condiționată. Care este probabilitatea ca un mort selectat aleatoriu să fie spânzurat? Este rezonabil să presupunem că va fi relativ mic. În schimb, care este probabilitatea ca un spânzurat selectat aleatoriu să moară? Această probabilitate va fi foarte aproape de certitudine.
Poate fi o greșeală aparent banală și ușor de demascat. Cu toate acestea, cititorul de reviste economice își poate întâlni cu ușurință forma „mai științifică” - aplicată sau interpretată incorect Testul t Student. În spatele acestui nume se află un instrument matematic pentru testarea ipotezei semnificației statistice a datelor măsurate pentru un eșantion selectat. În practică, este utilizat, de exemplu, pentru a compara dacă rezultatele măsurătorilor dintr-un eșantion selectat diferă statistic semnificativ de un eșantion de control.
Matematicianul ar spune că testul t verifică dacă ipoteza că efectul real este zero poate fi exclusă pe baza datelor măsurate pe eșantionul selectat. Este o mare greșeală să confundăm acest lucru cu afirmația simplificată conform căreia se testează dacă magnitudinea efectului investigat este zero. Dacă nu putem respinge așa-numita ipoteză nulă, tot nu ne dă dreptul să spunem fără echivoc că efectul real este zero. Sau în limbajul uman: este similar cu o situație în care nu putem respinge ipoteza că un spânzurat selectat la întâmplare este mort. Cu toate acestea, prea mulți oameni de știință socială fac această greșeală.
Înșelătoare și dăunătoare
Potrivit lui Ziliak și McCloskey, accentul pus pe semnificația statistică este înșelător și dăunător. Potrivit acestora, semnificația statistică nu este nici măcar un instrument util pentru examinarea inițială a datelor, deoarece prea des poate duce la concluzii complet eronate. Este paradoxal cât de multă importanță este acordată cercetării empirice care arată rezultate „semnificative”. Una dintre primele descoperiri care este insuflată în mintea fiecărui student econometric este că rezultatele sale sunt semnificative statistic.
Manualele econometrice au fost create din testul t și nivelul de un procent de semnificație al idolului, care este înclinat în mod necritic aproape întregii profesii economice. Ziliak și McCloskey au urmat articole empirice în American Economic Review, cea mai prestigioasă revistă din profesia economică, și au constatat că accentul pus pe semnificația statistică împinge alte considerații mult mai importante. Doar un minim de articole au arătat, de asemenea, puterea testului respectiv. Multe articole nu au discutat amploarea efectelor găsite și comparația lor cu ceea ce au așteptat autorii de la modele.
Este adevărat că situația s-a îmbunătățit oarecum comparativ cu anii 1980. Dar încă domină abordarea utilizării metodelor, care aplică fără gândire principiul semnificației statistice și ignoră amploarea efectelor studiate. Această tendință nu este evitată nici de marile nume ale economiei moderne. Autorii menționează cu poftă lucrările lui Gary Becker, Ben Bernanke, Paul Krugman sau David Card și Alan Krueger, care folosesc mecanic și fără gânduri conceptul de semnificație statistică ca pretinsă dovadă a semnificației reale a efectelor pe care le-au studiat.
Boală răspândită
Analiza de regresie nu este utilizată doar în economie. Este un instrument comun în cercetarea psihologică și medicală. Potrivit autorilor, psihologia de astăzi este mai bună decât economia, deoarece revistele științifice pun cerințe mai stricte asupra semnificației faptice, nu numai statistice, a rezultatelor. În medicină, studiile clinice ale medicamentelor se bazează pe semnificația statistică. Și asta poate fi literalmente fatal.
Vioxx, un analgezic dezvoltat de Merck, a fost distribuit în peste 80 de țări între 1999 și 2003. După ce o femeie de 70 de ani care lua Vioxx pe bază de prescripție medicală a murit din cauza unui infarct, studiile clinice ale efectelor sale au fost reexaminate. În așteptarea procesului, Merck a retras medicamentul de la vânzare. Cum se raportează la semnificația statistică?
Cinci pacienți care au luat Vioxx au suferit un atac de cord în timpul studiilor clinice. În aceeași perioadă, doar un pacient din grupul de control care a luat un alt medicament a suferit un atac de cord. Această diferență nu a atins limita de 5% a semnificației statistice. Prin urmare, Merck a susținut că nu există nicio diferență în efectul celor două medicamente asupra sistemului circulator, în ciuda raportului aparent de cinci la unu în detrimentul Vioxx. Pentru a înrăutăți lucrurile, s-a constatat mai târziu că încă trei pacienți care suferiseră sau muriseră din cauza unui infarct au fost excluși din eșantion în timpul testării. În cele din urmă, nu a fost un raport de cinci la unu, ci opt la unu (ceea ce ar fi deja semnificativ statistic).
Înțeles, unui econometor onest i s-ar părea că manipularea datelor este inacceptabilă. Dar principala problemă este că accentul pus pe manipulare în sine a fost pe semnificația statistică ca singură măsură a riscului. Aplicarea sa mecanică creează motivația perfectă pentru ca manipulările să apară frecvent. Prin urmare, dacă dorim să atingem un nivel mai înalt de transparență în cercetarea științifică, ar trebui să insistăm ca testele de semnificație statistică să nu constituie piatra de temelie a lucrului cu date.
Povestea statisticilor
Povestea testului t Student, pe care Ziliak și McCloskey o spun în ultima treime a cărții, este, de asemenea, fascinantă. Studentul care a publicat teorii în biometrie s-a numit de fapt William S. Gosset și a lucrat la fabrica de bere Guinness din Dublin. Angajatorul nu i-a permis să publice sub numele său real. Metoda, pe care a folosit-o în principal în compararea proceselor tehnologice în prepararea berii sau în compararea calității soiurilor de hamei, a căzut în mâinile lui Ronald A. Fisher, un statistic ambițios care a devenit ulterior profesor de eugenie la University College London.
Gosset a avertizat împotriva transformării testului t într-un instrument mecanic pentru evaluarea semnificației variabilelor explicative în regresia statistică, ignorând în același timp amploarea efectului. Cu toate acestea, Fisherul fără scrupule, care a minimizat conștient importanța Studentului pentru propria sa cercetare, a transformat testul semnificației statistice într-un idol al statisticilor moderne.
Influența lui R. A. Fisher și atracția inițială a regulilor simple, aplicate automat se află în spatele faptului că economia aplicată, psihologia și medicina clinică pun un accent nejustificat pe testul t. Extinderea tehnologiei informatice, care permite testarea imediată a semnificației statistice, a jucat, de asemenea, un rol.
Dacă costurile utilizării unui test de semnificație statistică sunt practic zero, atunci economia prezice că, pe termen lung, randamentele acestor teste vor fi, de asemenea, zero. Și acest lucru pare să descrie cu acuratețe situația din disciplinele empirice contemporane. Semnificația statistică este un fenomen de zi cu zi care are foarte puține beneficii pentru cunoașterea lumii reale.
Ziliak și McCloskey solicită o schimbare radicală de paradigmă. Aceștia solicită oamenilor de știință sociali să nu aplice testul t ca rețetă dintr-o carte de bucate, ci mai degrabă să analizeze amploarea lor atunci când evaluează semnificația diferitelor efecte. Și au confruntat-o cu ceea ce prezic teoriile lor cu parametri stabiliți în mod rezonabil. O astfel de schimbare ar impune cerințe mai mari asupra calității și ar ajuta științele sociale să fie mai oneste și să vorbească despre realitate mai mult decât spun în prezent.
-
Stephen T. Ziliak este profesor de economie la Universitatea Roosevelt din Chicago. Pe lângă istoria economică, el se concentrează pe metodologia și istoria statisticilor matematice.
Deirdre N. McCloskey (născut Donald N. McCloskey) este profesor de economie, istorie, engleză și comunicații la Universitatea Illinois din Chicago. El este unul dintre fondatorii cliometriei - un studiu cantitativ al istoriei economice. Pe lângă contribuțiile importante în acest domeniu, McCloskey a devenit faimos în special pentru examinarea importanței retoricii în economie și a sociologiei profesiei economice.
Autorul recenziei este doctorand la Universitatea George Mason.