Jump to content
IGNORED

Kult statisticke znacajnosti


Indy

Recommended Posts

Slazem se BM, neke slicne stvari pominju i Ziliak & McCloskey u nekom od svojih radova (ima da se skine na linku sto sam ranije ostavio). Meni je zanimljiv uticaj kompjuterizacije od kasnih 70-tih naovamo. Po nekim merilima Z&McC, kvalitet statisticke analize u ekonomskim radovima je (znacajno, haha) opao u tom periodu, u odnosu na raniji. To mi je nekako intimno poznato. Kad sam ja poceo da radim (sto nije bilo bas 70-tih, malo kasnije, ali je bilo u SFRJ) jos se uveliko radila statistika rucno (OK, koristio se kalkulator koji je pomagao oko suma kvadrata i sl., ali je obrada par vecih tabela bila celodnevni posao). Naucio sam BASIC samo da bih napravio programe za Anovu, lsd i druge testove, regresiju, itd - da se spasem bede. Kasnije su dosli PC-jevi i sa piratima i besplatni SPSS i ostalo. Uglavnom, dobro se secam da se cela stvar oko statisticke obrade i prezentacije morala bolje promisljati "iz fundamenta", prosto da bi se sebe spaslo beskonacnog rucnog sabiranja kolona (i neminovnih gresaka, pogotovo ako se to davalo tehnicarima - imali smo par "ispraksovanih" koji su najverovatnije namerno gresili, e da vise ne bi dobijali taj mucni zadatak.) Danas je to postalo joke, sa statistickim paketima koji mogu da obrade 3D matrice x10.000-podataka u roku od 3 klika misem (i pritom proizvedu sve zamislive statisticke analize i parametre na svim mogucim kombinacijama faktora i tretmana... with any luck, something's just gotta be significant! ...and there's your paper.)

Link to comment

mislim da je s genetskim istrazivanjima vise problem broj lokusa koji se ispituje nego broj ispitanika. standardne korekcije zahtevane velicine znacajnosti (tipa bonferroni) daju toliko niske verovatnoce (granica nije vise 0.01 nego nesto kao 0.0000000000000000000001) da je sansa da se fenomen uopste vidi izuzetno mala, cak i ako postoji. onda se ljudi igraju sa korekcijama, uzimaju druge jer im daju znacajne rezultate, pa se ceka na replikacije koje se nikad ne dogode itd. onda sa manje konzervativnom korekcijom znacajnosti verujes da tu i tamo dobijas nerealne veze izmedju gena i ponasanja, a sa konzervativnijim testovima ne verujes kad nesto nije replicirano jer je lako moglo biti prisutno ali nevidljivo zbog trazenog nivoa znacajnosti.slican problem je i sa snimanjem mozga, broj jedinica analize (voksela) je ogroman i vrse se razne korekcije koje jos uvek nisu proceduralno strogo definisane, pa je cesto pitanje da li bi dva istrazivaca dosla do istih zakljucaka ako bi gledali iste pocetne podatke. i mnogi se zapetljaju u tome jer je tehnicki komplikovano. bas je skoro izasao neki clanak o teorijski nemoguce visokim korelacijama u fMRI studijama koje su objavljivane na super kul mestima, jer istrazivaci nisu sasvim razumeli protokol.al sve je to mimo velicine efekta :D

Link to comment
Danas je to postalo joke, sa statistickim paketima koji mogu da obrade 3D matrice x10.000-podataka u roku od 3 klika misem (i pritom proizvedu sve zamislive statisticke analize i parametre na svim mogucim kombinacijama faktora i tretmana... with any luck, something's just gotta be significant! ...and there's your paper.)
Jos da nije zabelezenih slucajeva kao sto su, izmedju ostalih, ova dva: Jedan &Dva...
Link to comment
Jos da nije zabelezenih slucajeva kao sto su, izmedju ostalih, ova dva: Jedan &Dva...
Ni undergrad-ovima se ne preporucuje Excel za statistiku. To je, bas-bas, ono, zadnja varijanta - ako se nema nista drugo. (Cak i ako mora Excel bolja je varijanta koristiti 3d-party plugin kao npr. xlstat, koji je shareware, ali moze da se koristi besplatno neko vreme/odredjen broj puta).
Link to comment
Ni undergrad-ovima se ne preporucuje Excel za statistiku. To je, bas-bas, ono, zadnja varijanta - ako se nema nista drugo. (Cak i ako mora Excel bolja je varijanta koristiti 3d-party plugin kao npr. xlstat, koji je shareware, ali moze da se koristi besplatno neko vreme/odredjen broj puta).
To vazi za pismene ljude a moz' si misliti koji procenat onih drugi koristi to, narocito ekipa iz ne-tehnickih oblasti... Istina, culi su neki i za S-Plus i takve stvari al' to je samo za 'ozbiljne' istrazivace... ;)
Link to comment
Sreca je sto masa ljudi ('naucnih radnika') barata nekakavim pojmovima & shvatanjima koja u fundamentu nisu ispravna al' posto ionako niko ne slusha sve ide dalje redom - svojim tokom...
Mnogi applied scientisti (to spominje i Ziliak / McCloskey kad su u pitanju ekonomisti) imaju vrlo mrsavu obuku iz statistike. Kad je u pitanju agronomija (i druge applied sciences) u Australiji moguce je doci do PhD-a samo sa formalno odslusanom undergrad statistikom (tipa Statistics 101). Uvek sam govorio da je to velika greska, ali tu ima puno ljudi koji su ceo zivot samo bezali od svega sto lici na matematiku, pa niko nije hteo da slusa. Video sam toliko skupih projekata upropastenih nerazumevanjem prilicno bazicne biometrike. To je bila jedna od prednosti (naseg) starog sistema kad se morala raditi (prava) magistratura. Trebalo je vise vremena da se stigne doktorata, ali se za to vreme moglo stosta korisno nauciti - npr. statistika, naucna metodologija ili npr. kako pisati radove (tako da mogu da se citaju).Drugo (to smo vec prezvakavali na temi o "kvalitetnim radovima"), puno nevolja izaziva i pritisak za impact factorima i tome slicno.
Link to comment

Ili ono sa slicnosti i razlike izmedju 'verovatnoce' i 'frekvencije'... Cini mi se da sam video negde 'paper' na tu temu, u ozbiljnom zurnalu gde je demonstrirano na lepom uzorku 'naucnih radnika' da ne shvataju razliku izmedju tih & takvih stvari...

Link to comment
Mnogi applied scientisti (to spominje i Ziliak / McCloskey kad su u pitanju ekonomisti) imaju vrlo mrsavu obuku iz statistike.
Najgore sto su neki od njih dobili i onu nagradu sto se zove 'nobelova' nagrada za ekonomiju... :)
Link to comment

Koriscenje F statistike vazi za testiranje cele regresije, tj. jednacine. Ima smisla ako se posmatra kompleksan problem u smislu da je kretanje zavisne promenljive (pojave koju ispitujemo) pod uticajem vise nezavisnih (kvantitativnih ili kvalitativnih faktora). Obicno je F statistika statisticki znacajna ako su sve t-statstike koje mere znacajnost svakog pojedicnog faktora (nezavisnih promenljivih) znacajne. Retka je stvarno situacija da su t statistike iznad granicnih vrednosti, a da F statistika bude ispod granicnih vrednosti. To obicno znaci da je izostavljen neki bitan, znacajan faktor i kad bi se on "ubacio" u jednacinu, onda bi neki drugi bili izbaceni.Ono sto je bitno da znamo je koliki je uzorak, da li je reprezentativan i da li ima greska u merenju promenljivih. Obicno, da bi se dobili relevatni podaci, uzorak mora da ima bar 30 elemenata. Tada deluje tzv. centralna granicna teorema u statistici i tada vaze pretpostavke na kojima pocivanju sve statisticke ocene (ko je prosao kurs teorijske statistike ili citao neku knjigu sa osnovama statisticke analize moze da se upozna sa ovom temom). Mogu da se rade analize i na manje elemenata u uzorku, ali se tada primenjuju drugi testovi (zovu se neparametarski i najcesce korisceni su korelacija ranga i test medijane...). Reprezentativnost je bitna i ona se najcesce obezbedjuje primenom metode slucajnog odabira (narocito kod potrosaca, retail tracking-a, raznih tzv velikih istrazivanja). Ja sam vidjao radove mnogih lekara, inzenjera ili agronoma u kojma se radi regresija sa manje od 10 podataka i izvlace zakljuci opsteg karaktera. Na drugoj strani, klasicna regresiona analiza koja meri uticaj jedne promene na drugu sve cesce biva potiskivana sa time series analizom, gde se kretanje jedne pojave posmatra u kontekstu prethodnih vrednosti, trendova, sezanlnosti, slucajnog faktora... Ovo, najcesce vazi za tzv finansijske serije (akcije, kamate, prinosi na trzistima novca, kursevi) gde razvijanje velikih ekonometrijskih modela nije ni ekonomicno, a nije covek siguran da li se iz sume jednacina moze izvuci podataka.U novinskim pisanjima cesto se daju rezultati u grubo, sa malo detalja i obicno se istakne rezultat istrazivanja i spomene kako je statisticki znacajno ovo uticalo na ono... Kad bi neko napisao jednacinu, verovatno to niko ne bi ni pogledao, narocit ako stavi ispod ocena t statistike ili standardne greske.Ja imam problem da objasnim statisticku znacajnost kod istrazivanja koja radimo u duvanskoj industriji. Merimo Regular Brand Share tako sto pitamo potrosace koji im je regularni brend, pa sve te odgovore saberemo i utvrdimo ucesce naseg. Najcesce se dobiju rezultati koji su konzistenti iz meseca u mesec. Ali ima i oscilacija. U jednom talasu je to, lupam, 1.5% u drugom 1%, u trecem 1.6%. I pitanje je uvek isto: jel share raste ili opada. I onda ja dodjem i kazem "sve je ok, ocene nisu statisticki znacajno razlicite, tako da je share konstantan". I tu se zajebem: ako je konstantan, sto nisu brojevi isti ili slicni ili dobijem odgovor da to njih ne zanima, da oni hoce da znaju raste ili pada...A stvar je prilicno jednostavna: od uzorka, do uzorka dobiju se razlicite ocene jer broj ljudi oscilira iz meseca u mesec. Kada se ocene posmatraju u kontekstu promene broja onih koji puse regularno brend xy, bitno je koliko smo njih 'uhvatili" tokom prikupljanja podataka (sampling). Ako je taj broj manje vise konstantan (tacnije manje su oscilacije iz meseca u mesec), onda je ucesce konstantno jer se istrazivanje uvek radi na uzorku konstante velicine. I to vazi za velike. Kod malih je oscilacija veca, pa otuda i promene u share. Kod malih (recimo ima brendova za koje jedva navatamo vise od 20 pusaca) svaka oscilacija na dole do npr 16 ili 15 je velika, jer je to velika apsolutna oscilacija, pa ocene variraju... A kad kazem da je brend mali, dobijem zahtev da "prilagodim" istrazivanje tako da obuhvati uvek isti broj ispitanika...I onda, da parafraziram, Beograd ispadne najjeftiniji u okruzenju...

Link to comment
Kad bi neko napisao jednacinu, verovatno to niko ne bi ni pogledao, narocit ako stavi ispod ocena t statistike ili standardne greske.
jedan moj profa je uradio metaanalizu citiranosti radova iz psihologije i nasao da sto u radu ima vise formula, to je manje citiran :)
Link to comment
jedan moj profa je uradio metaanalizu citiranosti radova iz psihologije i nasao da sto u radu ima vise formula, to je manje citiran :)
Pa to ide u prilog onom sto je Indy napisao o niskom nivou generalnog znanja o statistici. Svi prodju pocetne kurseve gde upoznaju najcesce koriscene testove (medicinari znaju da smaraju sa Hi kvadrat testom, jer nista drugo gotovo i da ne koriste). A i kad napisu jednacinu, to izgleda kao cista mentalna egzibicija, jer ljude bas i ne zanimaju sve one oznake (da li je promenljiva sa lag-om, ima li onih Dummy variably, sta ako se nadje logaritmovana vrednost, ako se regresija radi na transformisanim podacima...).Nekada davno je izvesni Petrovic pravio "analizu" indeksa cena (cene na malo) gde je jednacina imala brat bratu 30 promenljivih - sve indekse cena po grupama, pa neke sinuse, cosinuse, logaritme... Suma brojeva uz lag od -1 do -15... I sve to na seriju od 40 podataka... I ko to da gleda i da cita i da se pita ko mu uopste dade prostora za takve gluposti, blago receno...Indy, hvala za link. Radio ja to u okviru svog SPSS-a i predstavio top team-u (bas naglasavajuci da je rbs konstanta i da nema bojazni niti potrebe da odmah reagujemo) i dobio tzv. feedback da mi je pristup "too think-thank based"! Onda su preuzeli akciju i posle tri meseca - nista: nije bilo relevantno potrosacima. A onda novi momenat: niste dobro postavili pitanja i sto ste uopste radili to tog i tog meseca... Edited by Glorfindel
Link to comment
  • אַף אֶחָד pinned this topic

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...