Jump to content
IGNORED

Kult statisticke znacajnosti


Indy

Recommended Posts

Bas sam se juce raspravljao na nekom blogu sa nekim ko iznosi tvrdnju kako je u poslednjih 10 godina doslo do "statisticki znacajnog" zahladjenja (sto obara teoriju o antropogenom globalnom zagrevanju, kako taj misli) - posto link koji je prosledio (ovde, ako nekog zanima) ne demonstrira kako je utvrdjena znacajnost trenda (tj. odsustvo iste, sto oni tvrde).U primenjenim naukama, od agronomije do medicinskih nauka, glavni kriterijum za donosenje "presude" je statisticka znacajnost, odnosno testiranje. Ziliak & McCloskey tvrde da ti "testovi ne testiraju, a procene ne procenjuju". Oni tvrde u knjizi (koja se moze procitati na Google Books) da je u pitanju nista manje nego katastrofa, koja traje 80 godina, u oblastima od presudne vaznosti, kao sto su agronomija, medicina, psihologija, biologija, itd.Ne znam koliko su drugi ovde proveli vremena druzeci se sa Fisherovim testovima, ali meni sad da je neko rekao da je zemlja u stvari ravna ploca, otprilike bih se jednako iznenadio. (Znao sam da "nisu savrseni", ali...)Jezgro njihove teze je da statisticka znacajnost ne odgovara na naucno, kvantitativno pitanje; to nije naucni test. To je filozofski, kvalitativni test. Ono pita ne "koliko", vec "da li"; "Da li" je pitanje egzistencije i zanimljivo je, ali nije naucno. Fiserovski metod, kazu oni, pita da li postoji (npr.) efekt cena droga na adikciju, ili da li postoji efekt Vioxxa na srcani udar; ne postavlja se (naucno) pitanje - koliki je efekt? A iz toga sledi odsustvo interesovanja za pitanje "kakvu razliku proizvodi taj faktor", i "koga je briga?" Nauke koje se oslanjaju na Fiserovsku statistiku su "bez velicine" (sizeless).

The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and LivesBy Stephen Thomas Ziliak, Deirdre N. McCloskeyEdition: illustratedPublished by University of Michigan Press, 2008ISBN 0472050079, 9780472050079321 pages
Link to comment

Fisherovi testovi, koliko znam, ne mere jacinu efekta, vec ustanovljavaju da li isti postoji.Kako autori naglasavaju u podnaslovu knjige, iz samog postojanja statisticke znacajnosti najdirektnije slede velike odluke i policies. Nalaz u naucnom radu da postoji "statisticki znacajan" uticaj leka X na npr. srcane komplikacije je sve sto je potrebno da se taj lek povuce iz prodaje. To nije prvi, vec upravo poslednji nivo. To se uklapa i sa nekim mojim iskustvom, pokazivanje da postoji statisticki znacajan efekt najdirektnije vodi promenama toga kako se stvari rade.Autori ove knjige smatraju da je to pogresno, jer su sami Fisherovi testovi (po njima) pogresni. Oni smatraju da su Studentovi (Gossett) testovi ono sto bi trebalo koristiti. (Knjigu tek citam, pa cu tek videti detaljnija obrazlozenja).

Link to comment
Oni tvrde u knjizi (koja se moze procitati na Google Books) ...
Na Google-u ima samo 1. poglavlje. To sam procitao, i sad mi se ne cini bas toliko revolucionarno. Tj. na mestu je kritika prevelikog oslanjanja samo na postojanje znacajnosti (mada su ljudi bili toga svesni i ranije).Ima ih na amazon.com-u, gde se takodje mogu naci i neki zanimljivi komentari, ukljucujuci i prilicno kriticne. Edited by Indy
Link to comment
Indy, malo sam cirke, pa cu sutra vise o tome. Za sada, samo da kazem da postoji direktna veza izmedju t-testa i F-testa.
Na zalost, u onom delu knjige koji je dostupan (uvod i 1. poglavlje) nigde ne objasnjavaju na sta tacno (u smislu konkretnih kalkulacija) misle kad kazu da je Fisher zamenio "Studentov t test sa kvalitativnim pitanjem o postojanju efekta"). Jedino sto mogu da pretpostavim kad kazu da je u Studentovom t testu "velicina/kolicina" (size matters) centralna da misle na to da se u izracunavanju t koristi velicina uzorka, dok se za izracunavanje F koriste samo vrednosti varijanse (to sto deli varijansu sa varijansom).Izgleda (po nekim komentarima) da je i problem sa ovom knjigom da ne "silazi" dovoljno u konkretne primere, vec ostaje u domenu nekih nacelnih rasprava. Knjiga se, u stvari, najvise bavi istorijatom razvoja tih dvaju testova (koji oni definitivno vide kao suprotstavljene - evo ispod najpribliznije zasto oni misle tako; s tim da jos tvrde da je R. Fisher nesto "drpio" od Gossetta, tj. Studenta). Mislim da je jasno da mi bas nije jasno sta su tacno hteli da kazu, da li sto meni nije jasno, ili sto oni nisu bili jasni (barem u uvodu knjige, u kom su po meni morali to barem da naznace)...21kilop.jpg
Link to comment

I kod F-testa je, ako nisam izlapeo, bitna veličina uzorka. Evo pogledaj ovde tablicu kritičnih vrednosti za F-test, nju čine dva broja stepeni slobode (nu1.gif i nu2.gif), koji zavise od veličine uzorka (n).

Edited by Lale Gator
Link to comment

U knjizi (barem pristupacnom delu) nisam nasao objasnjenje (precizno) zasto oni misle da je Fisherovska statistika "bez velicine", osim - kao sto pomenuh - ako pritom ne misle na to da se F dobija deljenjem dve varijanse i time iz njega "odstranjuje velicina" (to ne mislim nuzno ja, vec pokusavam da protumacim sta su ovo dvoje autora zeleli da kazu... kad oni sami vec nisu bili konkretni).Ocito moram jos da se informisem o tome sta McCloskey/Ziliak uopste zele da kazu, posto su oni u nekoj misiji protiv statisticke znacajnosti kao takve (a naravno da se i t-test ubraja u testove znacajnosti, gde me potpuno zbunjuju). Ocito mi fali neki komadic zagonetke.Na ovom linku ima neke rasprave na tu temu, ukljucujuci i linkove pdf radove... pa cu se malo pozabaviti time.

Edited by Indy
Link to comment

meni je izvestavanje o velicini efekta stvar koja se podrazumevala od diplomskog na dalje (a nisu mi trazili za neka istrazivanja tokom osnovnih studija). cim nakrcas brdo ispitanika stvar ce biti znacajna ma kako male razlike bile, ali onda je na tebi kao istrazivacu da procenis da li su te razlike bitne u nekom supstantivnom smislu. tu imas brojku koja ce ti pomoci da to odlucis, ali sama odluka zavisi od toga sta ispitujes. secam se nekog istrazivanja gde je pokazano da jedenje ribe produzava zivot, a onda u velicini efekta vidis da zbilja statisticki znacajno produzava, ali za 1/18 procenta. to bi znacilo da ce oni koji jedu ribu vrlo verovatno ziveti duze, ali u proseku je to dve nedelje duze. i ako ne volis ribu, mozda ti te dve nedelje vs. dve manje ali da jedes hranu koju volis, i nije nesto bitna stvar.t-test vs. F-test, nije mi jasno na sta autori ciljaju posto je prvi specijalan slucaj drugog.

Link to comment

Mislim da ciljaju da je ovaj drugi drpio onaj prvi (Fisher od Gossetta), medjutim taj deo knjige nije dostupan za dz. (Knjiga je vrlo nova pa je jos nema na uobicajenim internetskim mestima).Imaju oni tu neki point, danas sam gledao njihove ranije radove (koji su zacudo bolje napisani od knjige, mislim, stil je bolji)... jedino sto su malo preterali sa borbenoscu, a i nisam dosad ubedjen da je (zlo)upotreba statisticke znacajnosti "kostala poslova, pravde i zivota". Tj. sasvim moguce da jeste, ali nesto ne vidim da su to dokazali, a drugo jos ne znam sta je tacno alternativa.Izvesno mi je jedino da neki (mnogi?) urednici casopisa verovatno naslepo i u potpunosti prihvataju da je sve sto je statisticki znacajno i zaista znacajno, i da je to (manje-vise) jedino i bitno da se statistika u radu oceni kao adekvatna. (Ziliak kaze da mu je savetovano da sa CV-a skloni radove koji kritikuju stat. znacajnost kada je trazio posao pre 10-tak godina).

Link to comment

kratki audio interviju sa Ziliakom: guinness gde daje primer pilule za mrsavljenje, koji, cini mi se, odslikava donekle njegovo vidjenje da Fisherovska statistika meri samo significantost pojave (recimo 95% CL) u smislu odstupanja od nulte hipoteze da efekta nema, ail ne i kvantitet/velicinu efekta te pojave. pilula 1: garantuje gubitak od 20 +/-10 kg pilula 2: garantuje gubitak od 5 +/-0.5 kgPo Fisherovskom standardu, pilula 2 vise odstupa od nulte hipoteze "nema gubitka kilograma", jer je centralna vredost za "vise" sigma vrednosti udaljena od nule. Drugim recima, nalaz o piluli 2 je vise significant od nalaza o piluli jedan, koja je svega par sigmi od nule, tj. od hipoteze da efekta na gubitke kilograma nema.Ziliak tvrdi da je Gosset (aka Student), u svojim originalnim testovima obracao paznju i na velicinu efekta, ne samo na significant level. U primeru sa pilulama ocigledno je da je kvantitet efekta veci u slucaju pilule 1, iako je efekat pilule 2 statisticki znacajniji.Nisam procitala knjigu, ali cini mi se kako je moguce da autori kritikuju (pored F-testa) i danasnju upotrebu Studentovog t-test koji se koristi sa jasno odredjenom statistickom znacajnoscu, posto iz ovoga sto sam cula, tvrde da Gosset nije obracao paznju samo na statisticku znacajnost, vec i na kvantitet efekta.Neki mali efekat koje izmeren sa malim varijansama moze biti statisticki znacajniji od nekog drugog, kvantitativno veceg efekta, koji je izmeren sa velikim varijansama - sto naravno svi znamo ;-), ali izbor izmedju ova dva usled statisticke znacajnosti je ono sto ovi autori kritikuju. Bas me zanima me sta jos u knjizi kritikuju.

Edited by mei
poslednje dve recenice
Link to comment

Moj profa iz statistike sa NZ je obicavao da govori kako su uobicajene p vrednosti (0.01 i 0.05) za statisticku znacajnost previse stroge, posebno za agronomiju (multifaktorijalni split-plot ogledi sa dovoljnim brojem ponavljanja, sezona i dovoljnim velicinama parcele kao eksperimentalne jedinice lako mogu da kostaju u milionima dolara, sa naravno neizvesnim rezultatom). Pretpostavljam da u ekonomiji moze biti suprotno, tj. da se nekad "olako" dobijaju visoke statisticke znacajnosti (sto nije tesko ako su izvori masovni, sekundarni, jeftini i lako pristupacni, kao sto su podaci iz cenzusa, EFTPOS-a i slicno).NZ mentor me je, s druge strane, ucio da pisem ovako: "A utice na B". Samo to. (Iz nasih krajeva sam doneo obicaj da budem opsirniji: "A statisticki veoma znacajno (p<0.01) utice na B"). Ako nije znacajno, onda pod njegovim instrukcijama to uopste nije bilo pominjano (cak ni to da nije znacajno - ako nije znacajno, ne postoji). A izmedju npr. 6 vina sa npr. 10 degustatora nije uvek bilo "lako" dobiti statisticki znacajnu razliku, cak i kad bi se vecina manje-vise slozila da je neko vino u necemu "bolje" od drugih. Brojevi, jednostavno, nisu hteli da igraju igru. (Pronasao sam spas u faktor/PCA analizi, ali to je druga prica).Gornji primer je vise problem kad se radi o nacinu koriscenja Fisherove statistike, nego same metodologije (koja jeste solidan pokusaj da se ispitivani efekat izdvoji iz shuma "eksperimentalne greske"). Recimo, Ziliaka i McCloskey nerviraju radovi u kojima su u tabelama bukvalno samo zvezdice znacajnosti (*, **, ***) prikazane, bez ikakvih brojeva. I meni se to ne doima bas kao informativno, a video sam to ponegde.

Link to comment
Gornji primer je vise problem kad se radi o nacinu koriscenja Fisherove statistike, nego same metodologije (koja jeste solidan pokusaj da se ispitivani efekat izdvoji iz shuma "eksperimentalne greske"). Recimo, Ziliaka i McCloskey nerviraju radovi u kojima su u tabelama bukvalno samo zvezdice znacajnosti (*, **, ***) prikazane, bez ikakvih brojeva. I meni se to ne doima bas kao informativno, a video sam to ponegde.
I meni se cini (iz onoga sto sam malo procitala sa google books linka) da kritikuju nacin prezentovanja podataka, tj. efekat necega se publikuje samo kao statisticki znacajan, bez detaljnih informacija. Tu kritiku podrzavam. Srecom, tabele sa zvezdicama jos nisam nigde srela ;-).
Link to comment

Nama je prosle nedelje u gostima bio Markus Munafo sa Univerziteta u Bristolu, drzao je predavanje s naslovom "Ne verujte svemu sto procitate u novinama". Kritikovao je studije u kojima se porede podgrupe ispitanika da bi se zakljucilo o postojanju veze izmedju pojedinih gena i oblika ponasanja, sto je dosta cesto u bioloskoj psihologiji i genetici.Njegova teza je da su testovi znacajnosti besmisleni kada su u pitanju pojave tog nivoa kompleksnosti. Probacu da primerom prikazem zbog cega je to tako. Ako uporedimo razliku u visini izmedju muskaraca i zena na slucajnom uzorku od 12 zena i 12 muskaraca, najcesce se dobije 0.1<p<0.2. Ako jedna cisto fizicka i dosta izrazena razlika ne moze da se utvrdi na tako malom uzorku, koja je verovatnoca da ce neka kompleksna veza gena i ponasanja izaci na videlo? Medjutim, na vrlo velikim uzorcima od po 100-1000 ispitanika, gubi se kontrola nad mnogobrojnim faktorima koji su povezani s ispitivanim varijablama te stoga mogu uticati na rezultat analize. Zato, cak i ako se posle korekcije p vrednosti dobiju znacajni rezultati, jedini nacin da se taj nalaz potvrdi je uspesna replikacija. Ako se pogleda sudbina brojnih novijih otkrica u genetici ljudskog ponasanja, moze se primetiti sledeci obrazac: najpre, vrlo znacajan i nedvosmislen efekat biva objavljen u nekom fensi casopisu tipa Nature, Science ili PNAS (kog jedan mog kolega od miloste zove penis). Zatim dolaze replikacije, ali kako godine prolaze, znacajnost je sve manja i manja, snaga efekta opada; najzad, pocinju u slabijim casopisima da izlaze clanci koji opisuju studije u kojima doticni efekat nije bio znacajan ili se cak dobija suprotan rezultat. I tako ukrug. Sta je resenje? Slozila bih se da u studijama na podgrupama populacije, zbog nedostatka eksperimentalne kontrole, nije moguce smisleno statusticko zakljucivanje na principu t testa. Ono vodi ka pogresnoj ideji da definitivno postoje razlike izmedju grupa ili cak da jedan od faktora utice ili izaziva drugi. Medjutim, testovi znacajnosti ne omogucavaju zakljucivanje o kvalitetu odnosa izmedju varijabli. Zato bi bilo bolje utvrditi 95% CI i gledati da li se aritmeticke sredine razlikuju u toj meri, tj razmisljati o pojavama u smislu verovatnoce umesto ili-ili testiranja statistickih hipoteza. Replikacija je takodje jako bitna, pa uprkos tome sto su studije na velikim uzorcima jako skupe, treba insistirati na tome da istrazivaci izvedu 2-3 eksperimenta pre nego sto objave nalaz. U vizuelnoj percepciji to je standard - bez makar 3 eksperimenta koja rasvetljavaju kljucne odlike neke pojave, nije moguce objaviti nista. Meni se cak jednom desilo da mi reviewer odbaci rad zbog toga sto sam statisticki testirala razlike u d' vrednostima, mesto da merim pragove percepcije i uradim fitove tako da se 'golim ocima vidi' da li ima razlika ili ne. Njegov komentar je bio da statistika ubija nauku i da se svaki minorni nalaz danas moze objaviti, samo ako je znacajan. Jedan moj kolega je jos ekstremniji. On je citao o istorijatu testova znacajnosti i kaze da su oni usvojeni potpuno provizorno, zato sto su od onoga sto je bilo na raspolaganju u tom trenutku bili najprihvatljiviji etalon za standardizaciju nacina zakljucivanja o rezultatima eksperimenata. Tako su i odredjeni kriterijumi od 5% i 1% sigurnosti. Medjutim, u to doba u naucnom svetu svaki naucnik mozda bi bio u stanju da izvede i analizira 10ak eksperimenata, a poznavao bi celokupnu literaturu koja je objavljena u tom polju. Nije postojao pritisak da se sve mora objaviti, niti je bilo nuzno 'izostaviti' problematicnije nalaze. Danas je u vecini bio/neuronauka nemoguce redovno pratiti svu relevantnu literaturu, naucnici izvode i po 2-3 eksperimenta godisnje koji rezultiraju u masi podataka koja se testira raznim metodama sve dok se ne utvrdi makar nesto sto deluje kao da ima smisla, pa se onda to pakuje u odredjenu user-friendly formu i salje u casopis. Revieweri, koji nikako ne mogu biti upuceni u sve bitne detalje za studiju koju citaju, cesto se rukovode reputacijom autora da nadomeste nedostatak znanja o svemu sto odredjuje kvalitet datog istrazivanja. Kad se sve to uzme u obzir, ispada da je nauka sama po sebi usla u dekadentnu fazu hiperprodukcije besmisla, u cemu su statisticki testovi tek vrh ledenog brega.

Link to comment
  • אַף אֶחָד pinned this topic

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...