Abstrakt: Clánok odpovedá na otázku, ako sa uplatnujú v praxi princípy zistovania validity a reliability, ktoré udávajú renomované ucebnice metodológie. Prvé dve casti príspevku nacrtávajú teoretický rámec a opisujú koncept validity a reliability. Nasledujúce casti vysvetlujú proces analýzy a uvádzajú jej výsledky. Z casopisu The Journal of Educational Research bolo náhodným spôsobom vybratých 56 stúdií. Velká väcsina (91 %) výskumných nástrojov v nich boli posudzovacie skály a testy, zvysok boli dotazníky, pozorovacie schémy a interview. Na prekvapenie bola validita zdokumentovaná len u 26 % nástrojov, zvysok nástrojov boli standardizované testy, alebo sa autori spoliehali na zrejmú (face) validitu. U posudzovacích skál sa pouzila konstruktová validita zistená pomocou faktorovej analýzy. Obsahová validita a face validita sa pouzili pri testoch, dotazníkoch a interview. Kombinované zdroje validity (napr. konstruktová spolu so súbeznou alebo diskriminacnou) sa pouzili velmi málo, co povazujeme za nedostatok vo validizacnom procese. Reliabilita bola uvedená pri 80 % nástrojoch. Najfrekventovanejsí spôsob bola Cronbachova alfa u posudzovacích skál. Zhoda medzi posudzovatelmi sa pouzila pri pozorovaní a testoch. Test-retest sa pouzil pri overovaní, ci je merací nástroj na pretest-posttest stabilný v priebehu casu. Koeficienty reliability väcsinou presahovali 0,80. Pri analýze stúdií sa potvrdilo, ze pri posudzovaní adekvátnosti validizácie a reliabilizácie je potrebné silne prihliadat k specifickým podmienkam konkrétneho výskumu.
Klúcové slová: metastúdia, validita, reliabilita, výskumný nástroj, výskumná stúdia
Validity and reliability of research instruments: Principles and actual practice
Abstract: The aim of the paper was to explore how principles of estimating validity and reliability of research instruments, as described in respected methodology textbooks, are satisfied. The initial parts of the paper delineate the theoretical framework and describe the concepts of validity and reliability. The following sections of the paper explain the process of analysis and its findings. The Journal of Educational Research was chosen as the research focus. A sample of 56 randomly selected articles from it has been inspected. The analysis revealed that a large majority (91 %) of research instruments used in these articles was scales and tests, the rest were questionnaires, observation schemes and interviews. Surprisingly, validity was calculated only with 26 of instruments; the rest of instruments were standardized tests or they were face validated. As far as scales are concerned, construct validity was documented by means of factor analyses. Content validity and face validity were used in tests, questionnaires and interviews. We consider the infrequent use of combination of two sources of validity (e.g., construct and concurrent or discriminant) to be a weak element in the validation processes in the sample of studies. Reliability was documented with 80 % of research instruments. The most frequent method of calculation was Cronbach's alpha. Inter-rater reliability was used in observations and tests; test-retest reliability was used to control the stability of the pretest-posttest measuring instrument. The size of reliability coefficients in most of studies exceeded 0.80. Throughout the analysis it was corroborated that when judging validity and reliability one has to critically consider the specific conditions of each research study before expressing an evaluation statement.
Keywords: metastudy, validity, reliability, research instrument, research study
Validita a reliabilita sú základné pojmy psychometrie, teórie vyjadrujúcej princípy a postupy objektívneho merania premenných velicín súvisiacich s clovekom. Psychometria má za sebou storocnú tradíciu, ktorú zalozil F. Galton. Jej teóriu postupne rozvinuli osobnosti zaoberajúce sa meraním inteligencie, dalsích schopností, ako aj osobnostných crt (A. Binet, L. L. Thurstone, K. Pearson, W. Stern, Ch. Spearman, R. B. Cattell, L. J. Cronbach a dalsí). Validita a reliabilita sa viazala najprv na testy, ktoré boli sprvoti najpouzívanejsími a najrozvinutejsími objektívnymi výskumnými nástrojmi, neskôr k nim pribudli i dotazníky, posudzovacie skály a struktúrované pozorovanie. Výskumné nástroje vyuzívajúce tieto metódy zberu dát sa pouzili v experimentoch, t.j. výskumnej metóde, ktorá sa najviac chce priblízit modelu výskumu reprezentovanému prírodnými vedami.
Ak skúmame pohyb v metodológii za posledných 30-40 rokov, zistíme, ze v kvantitatívnom výskume zdaleka nebol taký dynamický ako v kvalitatívnom výskume. V kvantitatívnom výskume môzeme spomenút napríklad novú teóriu testových odpovedí (item response theory), Raschov model merania, zistovanie velkosti úcinku (effect size), ktoré sa stalo základom pre metaanalýzy a v statistike hierarchickú regresnú analýzu. S príchodom pocítacov sa rozvinulo adaptívne testovanie a elektronické administrovanie dotazníkov a posudzovacích skál, kde papier a ceruzku nahradila klávesnica a obrazovka. Zmenil sa vsak nielen nosic, ale aj forma odpovedí a spôsob navigácie vo výskumnom nástroji, zrýchlilo a zautomatizovalo sa spracovanie dát. Velké zmeny priniesli moznosti pouzitia videa pri pozorovaní (v CR najmä Janík a jeho skupina - Janík & Miková, 2006, Najvar et. al., 2011). Nové impulzy pre komparatívny kvantitatívny výskum priniesli medzinárodné stúdie gramotností (citatelskej, matematickej, prírodovednej). Istý posun nastal v chápaní validity a reliability výskumného nástroja, o ktorom píseme v nasledujúcej casti.
Kvantitatívny výskum si udrzal silné postavenie vo výskumných stúdiách na celom svete, aj ked sa objavil jeho nový súper - kvalitatívny výskum zalozený na úplne inej filozofii a z nej odvinutej metodológie. Kvalitatívna metodológia najprv predstavovala rivala, neskôr sa stala partnerom a napokon spojencom kvantitatívneho výskumu. Objavili sa výskumné projekty, v ktorých bola prvá fáza kvantitatívna, druhá kvalitatívna a vice versa, alebo obidve fázy prebiehali simultánne (pozri Hendl, 2005). Neskôr koexistencia týchto dvoch prístupov poskytla pôdu na rôzne formy a úrovne prelínania. Napríklad pri naratívnej metóde, ktorá je jednou z vlajkových lodí kvalitatívneho prístupu, sa objavil i jej kvantitatívny variant - kvantitatívna naratíva. Naopak, zo struktúrovaného dotazníka, ktorý je typickým predstavitelom kvantitatívneho prístupu, sa môzu konstruovat "kvalitatívne" naratívy. Sú zalozené skôr na casových a procesných charakteristikách nez na interpretatívnych a subjektívne významových pozíciách a slúzia na vytvorenie "generických zivotných príbehov" (Elliot, 2012).
V situácii dynamického metodologického vývoja je dobré vrátit sa k základným kamenom kvantitatívneho výskumu a skontrolovat stabilitu jeho standardných postupov uplatnených vo výskumnej praxi. V tomto príspevku to uskutocníme prostredníctvom jeho dvoch klúcových konceptov - validity a reliability.
1 Koncept validity a reliability
Validita a reliabilita sú klúcovými poziadavkami kladenými na výskumný nástroj v kvantitatívnom výskume. Spolu s dalsími vlastnostami, ako je objektivita, verifikovatelnost a statistická zovseobecnitelnost zistení vytvárajú piliere toho, co nazývame dobrý kvantitatívny výskum.
Validita sa v minulosti definovala ako vlastnost výskumného nástroja umoznujúca zistovat to, co výskumník mieni zistovat. Ak chce výskumník zistit spokojnost ucitelov s profesiou, do výskumného nástroja vlozí polozky, ktoré zahrnujú rôzne aspekty práce ucitela a dá ucitelom moznost, aby tieto aspekty hodnotili na skále spokojnost-nespokojnost. Z obsahového hladiska potom mozno kvalifikovat tento výskumný nástroj ako validný na zistovanie spokojnosti ucitela s profesiou. Novsia koncepcia validity výskumného nástroja (Standards..., 1999)1 posunula tento koncept dalej a výskumník sa na základe zistení pýta, ako môze interpretovat odpovede konkrétnej skupiny ucitelov z hladiska ich spokojnosti s profesiou a aké má dôkazy na dolozenie svojej interpretácie. Úroven validity urcitého výskumného nástroja je teda daná interpretacnými moznostami jeho zistení. Dôlezitú úlohu pri nej hrá vyvodzovanie, ktoré výskumník uskutocnuje na základe údajov zistených výskumným nástrojom.
Výskumník sa môze rozhodnút pre rôzne spôsoby ("zdroje" v terminológii Standards..., 1999) validity. Z hladiska toho, ako daný výskumný nástroj odráza obsah urcitej výchovno-vzdelávacej oblasti mozno usudzovat o obsahovej validite. Z hladiska toho, do akej miery výskumný nástroj predikuje budúci stav alebo zistuje súvislost s danou vlastnostou meranou iným nástrojom, mozno usudzovat o kritériálnej validite. Z hladiska toho, aký psychický konstrukt výskumný nástroj sleduje, mozno usudzovat o jeho konstruktovej validite.
Reliabilita vyjadruje súcasne presnost a spolahlivost zistených údajov. Výskumník má moznost zvolit si rôzne spôsoby reliability podla toho, aké závery chce vyslovi. Ak chce vyslovi záver o tom, aké stabilné sú údaje získané pomocou výskumného nástroja, potom si zvolí opakovanie administrácie s tými istými subjektmi po casovom odstupe (test-retest reliability). Ak chce vedie, do akej miery mozno jeho dáta zovseobecòova na podobné úlohy, pouzije alternatívne formy výskumného nástroja s tými istými subjektmi. Ak chce vedie, do akej miery sú dáta zhodné, keï ich vyhodnocujú viacerí hodnotitelia, porovná výsledky týchto hodnotitelov (inter-scorer reliability). Ak chce vedie, do akej miery je jeho výskumný nástroj homogénny (t. j. ci sa jeho polozky dostatocne koncentrujú na cielovú vlastnos), vypocíta korelácie medzi kazdou polozkou a nástrojom ako celkom. Aby bola reliabilita dostatocná, musia by korelácie dos vysoké (Salvia & Ysseldyke, 1998, s. 151-152).2 Vypocíta sa tiez index vyjadrujúci vnútornú konzistenciu celého výskumného nástroja, obycajne je to koe..icient alfa3.
Informácie o úrovni validity a reliability pomáhajú výskumníkovi rozhodova sa o tom, ci môze by s výskumným nástrojom spokojný, alebo ci ho má zlepsova, prípadne odmietnu. Tieto údaje potrebuje výskumník na zaciatku výskumu. Ale otázky validity a reliability ho musia zaujíma aj pri spracovaní a interpretovaní výskumných dát. Dáta totiz musí vzahova vzhladom k vlastnostiam výskumného nástroja.
Obidve tieto vlastnosti výskumného nástroja sú relatívnymi mierami. Nemôzeme tvrdi, ze je výskumný nástroj validný alebo je nevalidný, ale aký je stupeò jeho validity. Tiez je zrejmé, ze výskumný nástroj môze by viac validný na jeden úcel a menej validný na iný úcel. To isté platí o reliabilite. Vzdy ide o údaj o konkrétnom výskume s konkrétnymi výskumnými osobami v konkrétnych podmienkach administrácie, to znamená, ze údaje získané tým istým výskumným nástrojom sa môzu v rôznych výskumoch lísi. V dobre overenom výskumnom nástroji a pri podobných skúmaných osobách a pri podobných podmienkach administrácie by vsak rozdiely nemali by velké.
Okrem výrazov validita a reliabilita budeme v tomto príspevku pouzíva aj výrazy validizácia a reliabilizácia, ktoré sa týkajú procesu smerujúcemu k získaniu informácií o týchto vlastnostiach výskumných nástrojov. Validita a reliabilita sú výslednými produktmi tohto procesu.
2 Ciele stúdie
Metodologické princípy zistovania validity a reliability výskumného nástroja, ich predpoklady, základné vlastnosti a normy dostatocnej validity a reliability sú známe z renomovaných publikácií (napr. Standards..., 1999; Kline, 2000; Hopkins, 1998). Aká je vsak skutocná prax? Ako sa tieto princípy uplatnujú v reálnych výskumoch s konkrétnymi výskumnými nástrojmi?
Odpoved na tieto otázky je mozné získat prostredníctvom analýzy produktov výskumníkov, teda publikovaných výskumných stúdií a správ. V tomto príspevku analyzujeme casopisecké výskumné stúdie, ktorých výber je uvedený nizsie. Záner tohto príspevku charakterizujeme ako metastúdiu, t. j. stúdiu, ktorá súhrnným spôsobom podrobuje analýze a hodnoteniu väcsí pocet iných stúdií z vopred stanovených hladísk.
Pri analýze sme sa zamerali na tieto otázky:
1. Aké druhy výskumných nástrojov sa v stúdiách pouzili a v akej proporcii?
2. Kolko výskumných nástrojov obsahujú jednotlivé stúdie?
3. Aké spôsoby validizácie a reliabilizácie sa pouzili?
4. Bola validizácia a reliabilizácia pouzitého výskumného nástroja dokladovaná v danej výskumnej stúdii takým spôsobom, aby sa mohlo usudzovat, ze sa uskutocnila vhodne a korektne?
5. Bola validita a reliabilita pouzitého výskumného nástroja dostatocne vysoká vzhladom k platným princípom?
Prvé dve otázky sa týkajú informácií o zastúpení výskumných nástrojov v jednotlivých stúdiách. Mapujú základný kontext, v rámci ktorého bude prebiehat dalsia analýza. Majú ukázat, ktoré typy výskumných nástrojov prevládajú a, naopak, ktoré sú slabo zastúpené (a preco). Tretia otázka smeruje ku kategorizácii jednotlivých spôsobov validity a reliability. Stvrtá a piata otázka smeruje k jadru príspevku a je zameraná na zistenie, do akej miery je prax validity a reliability verná platným metodologickým princípom.
3 Výber stúdií na analýzu
Odpoved na nase výskumné otázky mozno nájst v publikovaných výskumných správach alebo casopiseckých stúdiách. V tomto príspevku sme sa z pragmatických dôvodov sústredili na casopisecké stúdie - sú dostupnejsie nez výskumné správy.
Pri ich výbere je mozné postupovat tak, ze sa zvolí pedagogický casopis (alebo niekolko casopisov) rôznej orientácie a tieto sa podrobia analýze z uvedeného hladiska. Podmienkou vsak je, aby casopis publikoval dostatocné mnozstvo výskumných stúdií. Ak je týchto stúdií málo, analýza neposkytne dostatocný obraz o realite. Okrem toho výskumné stúdie musia obsahovat opis zistovania validity a reliability pouzitých výskumných nástrojov, bez nich by totiz nebolo co analyzovat. Kritérium dostatocného mnozstva výskumných stúdií plnia mnohé, najmä zahranicné casopisy. Po zvázení mozností sme vybrali jeden z nich, ktorý mal aj dalsie ukazovatele výborné.
Zvolili sme casopis The Journal of Educational Research, a to z týchto dôvodov:
1. Casopis vychádza dlhodobo (v r. 2013 ide o 106. rocník).
2. Rukopisy sú prísne recenzované.
3. Publikujú v nom významní výskumníci.
4. Aj ked v nom prevládajú severoamerickí autori, redakcia uverejnila aj príspevky z iných geografických oblastí (Európa, Austrália, Ázia).
5. Casopis vychádza v známom vydavatelstve Taylor and Francis.
6. Takmer vsetky príspevky sú zamerané na empirický výskum, takze casopis poskytne dostatok materiálu na analýzu.
Pri výbere konkrétnych stúdií sme postupovali nasledovne. V rocníkoch 2005, 2007, 2009 a 2011 sme zoradili stúdie abecedne podla priezviska prvého autora. V kazdom rocníku sme vybrali prvých 15 stúdií, ktoré sa stali predmetom analýzy. Ak stúdia nezodpovedala kritériu, vybrali sme v poradí dalsiu stúdiu. Kritériom bola orientácia na kvantitatívny výskum a pouzitie výskumného nástroja. Z výberu boli preto vyradené stúdie, ktoré obsahovali demografické analýzy, metaanalýzy a, samozrejme, kvalitatívne stúdie. Zo stúdií so zmiesaným, kvantitatívno-kvalitatívnym dizajnom bola predmetom analýzy len kvantitatívna cast. Aby sme sa vyhli efektu opakovania pri výbere stúdií, autor mohol mat vo výbere len jednu stúdiu, v ktorej bol uvedený ako prvý autor.
Casopis je dostupný v databáze ProQuest Central (prvé tri zvolené rocníky) a na webovej stránke casopisu (rocník 2011). Z posledného rocníka bolo volne dostupných, resp. zodpovedalo kritériu len 7 stúdií.4 V starsích rocníkoch boli niektoré stúdie necitatelne naskenované, tie nemohli byt analyzované (poradie výberu sa posunulo). Za poznámku stojí, ze casopis len výnimocne uverejnuje stúdie, ktorých hlavným cielom je vývoj nového výskumného nástroja a podrobná správa o jeho validizácii a reliabilizácii. Publikuje hlavne stúdie, v ktorých sa výskumný nástroj pouzíva primárne na zber výskumných dát, pricom opis a interpretácia týchto dát tvorí jadro výskumnej stúdie.
Celkove súbor zahrnuje 52 výskumných stúdií, v ktorých sa pouzilo 174 výskumných nástrojov.
4 Zistenia
4.1 Druhy výskumných nástrojov
Zistenia o druhoch pouzitých výskumných nástrojov informujú citatelov o metodologických trendoch, ktoré sa presadzujú v danom casopise. Ale druhy výskumných nástrojov v stúdiách casopisu vypovedajú nepriamo aj o tom, aké mali autori stúdií moznosti pri ich validizácii a reliabilizácii, resp. ktorým moznostiam dali prednost. Niektoré výskumné nástroje sa totiz prednostne validizujú a reliabilizujú jedným spôsobom, iné druhým. Základné údaje o pocte jednotlivých druhov výskumných nástrojov v analyzovaných stúdiách vyjadruje Obrázok 1.
Kvôli odstráneniu terminologickej nejednoznacnosti uvedieme najprv, co rozumieme pod konkrétnym názvom výskumného nástroja. Posudzovacia skála znamená nástroj obsahujúci intervalové alebo poradové skály vo forme formulára. Umoznuje vyjadrovat skóre za celý nástroj, alebo za jeho zlozky (dimenzie). Dotazník znamená nástroj obsahujúci uzavreté alebo otvorené otázky. Niekedy bývajú v dotazníkoch aj skálové polozky, ale málokedy prevládajú. (Struktúrované) interview je, podobne ako dotazník, formou získavania informácií od respondentov v podobe otázok, avsak ústnym spôsobom. U dotazníkov a interview sa vyjadruje frekvencia alebo percentuálne zastúpenie odpovedí. Výrazom test oznacujeme nástroj obsahujúci úlohy (polozky) na meranie kognitívnych a psycho-motorických výkonov subjektov. Výsledok testu sa vyjadruje pomocou skóre. Pozorovacia schéma je systém kategórií, v rámci ktorých výskumník zaznamenáva frekvenciu, intenzitu, kvalitu alebo trvanie pozorovaných javov alebo procesov. Výsledok pozorovania sa vyjadruje numericky v podobe frekvencií, aritmetických priemerov, indexov atï.5
Ako vidno, vo výskumoch sa robustným spôsobom uplatnili dva druhy výskumných nástrojov - posudzovacie skály a testy. Tie spolu pokrývajú 90,8 % pouzitých výskumných nástrojov. V 52 stúdiách nasej vzorky sa posudzovacie skály pouzili 107-krát, testy 51-krát. V stúdiách boli velmi slabo zastúpené dotazníky, pozorovacie schémy a interview.
Otázkou je, preco výskumníci preferovali posudzovacie skály a testy a, naopak, málo pouzívali dalsie druhy výskumných nástrojov. Výskumník si volí výskumné nástroje na základe ciela výskumu a výskumných otázok, na ktoré hladá odpovede. Pritom vyuzíva vsetky moznosti, ktoré mu empirický priestor dáva (subjekty výskumu a institúcie) a je zároven nimi obmedzovaný. Posudzovacie skály predstavujú nesmierne siroký potenciál mozností na zistovanie vlastností osôb, procesov a produktov. V posudzovacích skálach, ktoré boli v nasom súbore stúdií, sme nasli velmi pestré zameranie. Tu je niekolko príkladov: miera integrácie inovácií do vyucovania ucitelom, osobnostné crty ucitela, úroven motivácie ziakov, postoje ziakov k vyucovaciemu predmetu, prístup ziakov k uceniu sa, miera pracovnej spokojnosti ucitelov, metakognitívna uvedomenost ziaka, vnímaná profesijná zdatnost ucitela, konstruovanie roly ucitela, vztah skola-rodina, skolské prostredie, materiálne vybavenie skoly.
Okrem mozností hodnotit siroké spektrum vlastností je výhodou posudzovacích skál relatívne lahký spôsob zistovania reliability. Vypocíta sa pomocou koeficientu alfa, ktorý obsahujú softvéry na statistické spracovanie výskumných dát (SPSS, Statistica). Pri výpocte je zároven mozné dat príkaz na vypocítanie korelácie kazdej polozky s nástrojom ako celkom (príp. s danou dimenziou). Ak je korelácia nízka, výskumník má moznost pri príprave nástroja polozku preformulovat alebo ju eliminovat, aby získal nástroj s vyssou konzistenciou, teda vyssiu reliabilitu. To je pomerne lahká procedúra, ktorá - okrem moznosti skúmania sirokého spektra vlastností - silne favorizuje tento výskumný nástroj. Ako ukázeme dalej, zistenie reliability posudzovacích skál pomocou koeficientu alfa bolo najcastejsím spôsobom reliabilizácie v nasom súbore stúdií.
Testy sa v nasom súbore stúdií vyskytli v pocte 51, teda v priemere jeden test na jednu stúdiu. Pokial ide o zameranie, boli to testy vedomostí a zrucností z viacerých vyucovacích predmetov, testy gramotnosti na rôznej úrovni (pomenovanie písmen, dekódovanie, pomenovanie obrázka a pod.), testy divergentného myslenia, riesenia problémových úloh, predalgebraického myslenia, biligviálny test a pod. Mnohé pouzité testy boli standardizované a bezne sa v USA pouzívajú, napr. SAT, KeyMath Revised Normative Update, Indiana Statewide Test for Educational Progress, North Carolina End of Course Algebra a pod. Skolstvo Spojených státov, odkial pochádzalo najviac výskumných stúdií, ktoré sme analyzovali, je výrazne výkonnostne orientované a testovanie je "denným chlebíckom" ziakov. To vysvetluje silné zastúpenie testov v nasom súbore stúdií.
Hoci sa dotazníky relatívne lahko konstruujú (obycajne lahsie ako testy), nie sú zrejme u výskumníkov publikujúcich v tomto v casopise populárne preto, lebo majú mensie statistické moznosti. Nástroje na pozorovanie sa zvycajne konstruujú tazsie a zber dát je nárocný na cas, podobne ako pri interview. Pravdepodobne sa preto pouzili menej casto.
4.2 Pocet výskumných nástrojov v jednej stúdii
Pocet výskumných nástrojov v jednej stúdii vypovedá dostatocne silne o tom, aký siroký bol výskumný záber. Pravdu povediac, zistenia o pocte výskumných nástrojov v jednej stúdii boli pre nás väcsím prekvapením, ako to, co bolo hlavným predmetom analýzy, t. j. pouzité spôsoby a úroven validity a reliability výskumných nástrojov.
Obrázok 2 ukazuje, ze vo velkej väcsine stúdií sa pouzilo viac výskumných nástrojov ako jeden. V priemere to bolo 3,3 výskumných nástrojov na jeden výskum. Len devä stúdií z 52 malo jediný výskumný nástroj; na druhej strane boli v nasej vzorke výskumy, ktoré mali 4 az 9 výskumných nástrojov.
Pocet a druh výskumných nástrojov závisí od ciela výskumu a ten ukazuje, aké je siroké (príp. hlboké) empirické pole, na ktoré sa výskum zameral. Z analýzy vyplýva, ze casopis preferuje výskumy, ktoré danú problematiku skúmajú komplexne, berú do úvahy viaceré premenné a hladajú medzi nimi súvislosti. Na ilustráciu uvedieme výskum, ktorý je dost typický pre takéto zameranie.
C. Kohova et al. (2009) skúmali vplyv skupinového ucenia sa na motiváciu a ucenie sa ziakov. Zistovali názory ziakov o tom, ci skupinová práca uspokojila ich potreby, ovplyvnila ich motiváciu a vytvárala dost prílezitosti na rozvoj zrucností pre zivot. Výskumu sa zúcastnilo 588 ziakov stredných skôl a ich ucitelia v Singapure. Výskumníci pouzili pät výskumných nástrojov adaptovaných z pôvodných anglických originálov:
* Posudzovacia skála motivácie (17 poloziek).
* Posudzovacia skála uspokojovania potrieb (12 poloziek).
* Posudzovacia skála skúseností s bádatelskými úlohami (17 poloziek).
* Posudzovacia skála metakognície (7 poloziek).
* Posudzovacia skála percepcie výsledkov ucenia sa (15 poloziek).
Okrem toho v kvalitatívnej casti výskumu autori pouzili polostruktúrované interview s ucitelmi.
Na doplnenie analýzy poctu výskumných nástrojov pouzitých v jednom výskume uvedieme, ze velká väcsina stúdií mala viac ako jedného autora; nebolo neobvyklé nájst stúdiu, ktorá mala styroch az siestich autorov. To naznacuje moznú spojitost medzi poctom pouzitých výskumných nástrojov a poctom autorov. Výskum mal casto teamové zameranie z dôvodu koncentrácie síl výskumníkov a efektívneho vyuzitia prostriedkov.
4.3 Originálne a prevzaté výskumné nástroje
Výskumné nástroje, ktoré sa pouzili v nasom súbore stúdií, boli bud vlastné (ich konstruktérmi boli autori stúdií), alebo boli prevzaté (vytvorili ich iní odborníci). Mohli to byt výskumné nástroje pouzité v iných výskumoch, alebo to boli standardizované nástroje poskytované rôznymi vydavatelmi. Originálne výskumné nástroje boli zastúpené 47,1 percentami, prevzaté nástroje tvorili zvysok (52,9 %). To, ze prevzaté výskumné nástroje tvorili taký vysoký podiel, ukazuje, ze výskumníci si mohli vyberat z bohatej ponuky, ktorú mali k dispozícii. Moznost prevzatia originálneho výskumného nástroja v rodnom jazyku je velkou výhodou, pretoze ulahcuje prácu výskumníkov a umoznuje aj porovnávanie výsledkov rôznych výskumov realizovaných týmto nástrojom.
Prevzaté výskumné nástroje boli pouzité bez zmeny, alebo boli modifikované. Pri modifikácii výskumníci pouzili velmi rôznorodé stratégie: zme nili znenie niektorých poloziek nástroja, skrátili nástroj (vypustili niektoré polozky), zlúcili dve dimenzie nástroja alebo prevzali len jednu dimenziu. Stávalo sa, ze niekolko skrátených nástrojov zlúcili do nového nástroja, pricom si prispôsobili podla potrieb aj ïalsie vlastnosti, napr. rozsah a znenie skály v posudzovacích skálach. Táto pestros zásahov a odvaha manipulova s originálnymi nástrojmi nás tiez prekvapila, bola vsak obycajne podlozená dôkazmi o dostatocných psychometrických vlastnostiach modi..ikovaných nástrojov.
Ako ukázku výskumu zalozenom na mnozstve adaptovaných výskumných nástrojov uvedieme stúdiu H. J. Banga (2011). Autor skúmal, ako ovplyvòujú úroveò domáceho ucenia sa ziaka cinitele viazuce sa k samotnému ziakovi, jeho rodine a skole. Výskumu sa zúcastnilo 192 ziakov strednej skoly z imigrantských rodín v USA. Autor pouzil sedem výskumných nástrojov, ktoré boli postupne ziakom zadávané:
* Posudzovacia skála angazovania sa do ucenia adaptovaná z výskumu Suarez- Orozca a Suarez-Orozcovej (2001) - 10 poloziek. Respondenti vyjadrovali frekvenciu rôznych cinností, ktoré sú potrebné na úspech v skole. Príklad: "V skole dávam pozor."
* Skála kognitívneho angazovania, ktorá bola zlozená z poloziek vybratých z dvoch nástrojov - 6 poloziek. Polozky zisovali mieru intelektovej záaze pri ucení sa a záujem o ucenie sa. Príklad: "Mám rád nové ucebné výzvy."
* Stýl domáceho ucenia sa predstavoval skrátenú formu nástroja z výskumu Honga a Milgrama (2000) - 4 polozky. Zisoval preferencie ziaka pri ucení sa. Príklad: "Mám rád také domáce zadania, pri ktorých môzem báda."
* Preferencia ucebného prostredia pri ucení sa doma predstavovala skrátenú formu nástroja z výskumu Honga a Milgrama (2000) - 4 polozky. Polozky zisovali, v akom prostredí sa ziak rád ucí. Príklad: "Rád si robím úlohy za písacím stolom."
* Skála rodinných kon..liktov bola adaptovaná z výskumu Prinza, Fostera, Kenta a O'Learyho (1979) - 11 poloziek. Zisovala kon..liktné situácie medzi rodicom a dieaom ako napr. kon..likty kvôli zlým známkam, mnozstve domácich povinností dieaa a pod.
* Skála podporovania domáceho ucenia sa ziaka rodicom bola prevzatá z výskumu Hoover-Dempseyovej et al. (2001) - 5 poloziek. Príklad: "Ako casto sa ti rodicia venujú pri domácom ucení sa?"
* Skála násilia v skole bola prevzatá z dvoch výskumov - 7 poloziek. Ziaci sa vyjadrovali, ci musia robi opatrenia, aby sa vyhli nebezpecným incidentom. Príklad: "Musím si zvoli náhradnú cestu domov."
Pre úplnos dodávame, ze okrem týchto siedmich nástrojov boli pouzité ïalsie tri, a to originály autora.
4.4 Dokladovanie validity
Zásady metodológie výskumu si vyzadujú, aby kazdý výskumný nástroj - to znamená aj prevzatý - mal zistenú validitu a reliabilitu v danom výskume. Je to preto, lebo je potrebné overit, ci výskumný nástroj obstojí v nových výskumných podmienkach (subjekty, prostredie, specifiká administrácie, cas, ktorý uplynul od vzniku pôvodného nástroja). Výskumník musí brat do úvahy tieto okolnosti pri interpretácii svojich zistení. Validita a reliabilita sa nemusí zistovat u standardizovaných výskumných nástrojov, ktoré boli dostatocne vyskúsané a sú zalozené na reprezentatívnej výskumnej vzorke subjektov, s ktorou môze výskumník porovnat svoj výskumný súbor a na základe toho interpretovat svoje dáta. Autori standardizovaných výskumných nástrojov by vsak mali v casovom odstupe overovat, ci sú pôvodné normy este stále platné.
To, ako autori stúdie dokladujú postup pri validizácii svojho výskumného nástroja a ako opisujú výsledok tejto validizácie, je klúcovým údajom na posúdenie toho, ci bola táto validizácia uskutocnená vhodne a korektne.
Musíme zacat zistením, ci v stúdii autori vôbec uviedli údaje o validite svojich výskumných nástrojov. Vzhladom na to, ze sme tento casopis charakterizovali ako kladúci vysoké nároky na jeho autorov, môze sa zdat zvlástne, ze v niektorých stúdiách tieto údaje neboli citatelom poskytnuté. Ako uvidíme dalej, situácia je zlozitejsia.
Pokial ide o validitu, 25,8 % stúdií malo uvedený údaj, alebo to boli standardizované nástroje, ktoré sú validné (boli validizované predtým). Zvysok, to znamená velká väcsina výskumných nástrojov údaj o validite nemala dolozený. To je nepríjemné zistenie, ktoré vsak môzeme rozptýlit podrobnejsou analýzou. Nasu pozornost musíme diferencovat podla skúmanej vlastnosti. Ak ide o vlastnost alebo cinnost, ktorá je úplne zjavná, potom je zjavná aj validita daného nástroja. Test pravopisu vo výskume Madrida et al. (2007) je vlastne diktát, pri ktorom ziaci písu vety, ktoré im diktujú. O jeho validite nemozno pochybovat6 a môzeme si ju overit pohladom (face validity). Test má zrejme aj dostatocnú reliabilitu. Podobne to môzeme povedat o rôznych testoch gramotnosti vo výskume Edmonsovej et al. (2009), kde sa pouzili subtesty ako pomenovanie písmen, obrázkov, aliterácia a rýmovanie.
Inou kategóriou sú výskumné nástroje, ktoré boli adaptované (väcsinou skracované). Výskumníci validitu neskúmali, pretoze dôverovali zisteniam konstruktérov o validite ich nástrojov. Vo velkej väcsine prípadov vsak zisovali ich reliabilitu, pretoze tá závisí okrem iného aj od dåzky výskumného nástroja. Ak výskumný nástroj je "katalóg" (checklist) zisujúci prítomnos alebo neprítomnos urcitých objektov, napr. materiálneho vybavenia skoly, validita je vysoká a netreba ju dokladova. Niektoré výskumné nástroje nemali dolozenú validitu, ale stúdia obsahovala plné znenie výskumného nástroja, takze citatel si mohol utvori vlastnú mienku o òom a iní výskumníci ho mohli pouzi a overi jeho psychometrické vlastnosti.
Spôsob validizácie zálezí do znacnej miery od druhu výskumného nástroja. V prípade posudzovacích skál bola v analyzovaných stúdiách vykazovaná zvycajne faktorová analýza, co je správny postup. Pomocou nej sa zisuje konstruktová validita, t. j. do akej miery sa polozky tohto nástroja kryjú s daným konstruktom, ktorý lezí v jeho základe a akú má výskumný nástroj faktorovú struktúru (z akých dimenzií sa skladá) a ci táto struktúra zodpovedá teórii viazucej sa k danému konstruktu. Väcsinou sa pouzila exploracná faktorová analýza, v mensom pocte prípadov kon..irmacná faktorová analýza a este v mensom pocte prípadov obidve. Faktorová analýza vsak predstavuje az poslednú fázu validizácie výskumného nástroja. Tejto fáze predchádza tvorba koncepcie výskumného nástroja, zostavovanie jeho poloziek, ich obsahové overovanie, postupné dolaïovanie, zistenie, ci zneniu poloziek respondenti správne porozumeli atï. Táto fáza je ovela dlhsia ako výpocet a interpretácia faktorovej analýzy, pretoze zahàòa aj pilotné overovanie v teréne, a to si obycajne vyzaduje niekolko cyklov.
Analyzované stúdie vo velkej väcsine proces tvorby výskumného nástroja neopísali a vo výskumnej casti hneï presli k údajom získaným z faktorovej analýzy (pocet poloziek, hranica faktorovej záaze poloziek, pocet a oznacenie faktorov, celková vysvetlená variancia). Výnimkou z toho trendu je napríklad stúdia Handelsmana et al. (2005), ktorí podrobne opísali proces generovania poloziek nástroja. Pouzili vsak len jeden výskumný nástroj, takze mali dos textového priestoru - opis generovania zaplnil jednu tlacenú stranu. Ak by vsak autori pouzili napríklad 6 výskumných nástrojov, ako to bolo vo výskume Shihu (2009), potom ich textový priestor na opis validizácie by bol dos obmedzený. Shih pouzil kon..irmacnú faktorovú analýzu a pri kazdom nástroji uviedol osem indexov, kazdý v rozsahu troch-styroch riadkov. Dodajme, ze islo o prevzaté výskumné nástroje.
Napriek tomu sa domnievame, ze obmedzenie rozsahom textu, ktorý mohli ma autori stúdií k dispozícii, nemusí by jedinou prícinou, preco proces tvorby a validizácie nástroja neopísali podrobnejsie. V rozvinutej metodologickej kultúre sa fáza tvorby, prípravy a overovania výskumného nástroja pred faktorovou analýzou povazuje za samozrejmos. Preto sa autori sústredili hlavne na opis poslednej validizacnej fázy, teda na faktorovú analýzu a prípravnú fázu neopísali.
Aby citatel mohol posúdi, ci bola faktorová analýza urobená dobre, je potrebné, aby stúdia poskytla podrobný opis postupu a jeho výsledkov. To bolo v stúdiách dos typické. Dobrým príkladom je opä stúdia Handelsmana et al. (2005).
Cielom výskumu bolo zisti mieru aktivity (angazovanosti, engagement) studentov na nizsom stupni vysokoskolského stúdia v USA. Na tento úcel vyvinuli autori vlastnú posudzovaciu skálu, ktorá obsahovala 27 poloziek. Dáta od 266 studentov podrobili exploracnej faktorovej analýze. Bola pouzitá metóda hlavnej osi a rotácia varimax, ktorá ponúkla styri az sedemfaktorové riesenie. Na základe sutinového testu sa autori rozhodli pre 4 faktory, pri ktorých celková vysvetlená variancia bola 43 %. Autori uverejnili plné znenie poloziek posudzovacej skály a faktorové záaze v jednotlivých faktoroch (vsetky nad 0,40). Okrem toho urcili diskriminacnú validitu výskumného nástroja vzájomným korelovaním jeho dimenzií a konvergentnú validitu korelovaním skóre výskumného nástroja s prospechom studentov (tri hodnotenia studentov v priebehu semestra).
Takáto charakteristika je dostatocná na to, aby si citatel utvoril názor o spôsobe konstruktovej validizácie. Tu hovoríme len o poziadavkách pre casopisecké stúdie. Vo výskumných správach, v ktorých rozsah nie je obmedzený, by sa mali uvies este podrobnejsie údaje. Podobné opisy validizácie poskytli mnohé stúdie v nasej vzorke.
Konstruktová validita sa pouzila u 22 výskumných nástrojoch, z toho 7 bolo originálnych, 14 bolo prevzatých, ale validizovaných autormi stúdie na vlastnej vzorke. V jednej stúdii autori prevzali nástroj, ale uspokojili sa s údajom o validite zo vzorky konstruktérov výskumného nástroja. To je samozrejme jednoduchsie, ale menej korektné riesenie.
Pokial ide o testy, k dispozícii je len 5 údajov o validite - u jedného testu sa pouzila face validita, u styroch obsahová validita. Obsah poloziek navrhovaného testu posúdili odborníci, pricom sa uviedla miera ich zhody v tom, ako polozky testu pokrývajú struktúru a obsah testovanej oblasti.
Duatepe-Paksu a Ubuz (2009) z Turecka pouzili vo svojom výskume dva vedomostné testy z geometrie. Ich obsahovú validitu posúdil ucitel vyucovacieho predmetu a doktorand. Kritériom bolo pokrytie uciva testovými úlohami, kognitívna úroven úloh a ich jazyková obtaznost. Údaje o miere zhody posudzovatelov a o tom, ako sa riesila prípadná nezhoda vsak autori neuviedli. Spomenuli len spôsob validizácie.
V 46 testoch sa neuviedol nijaký údaj o validite, ale ako sme uz spomenuli, mnohé z nich boli standardizované alebo uznávané (established), iné testovali oblasti, kde face validita bola jasná.
Pokial ide o dotazník, ten sa pouzil v nasej vzorke výskumných stúdií sedemkrát a len v jednom prípade sa urcila validita (obsahová), a to konsenzom ucitelov a ziakov. Pri výskumných nástrojoch zalozených na pozorovaní a interview nebola validita udaná.
Na záver casti o dokladovaní validity výskumných nástrojov v analyzovanom casopise kategorizujeme pouzité moznosti. Ak zoradíme jednotlivé spôsoby validizácie podla dôkazovej sily, vychádza toto poradie. (V zátvorke sú pocty výskumných nástrojov, pri ktorých sa daná validita aplikovala; pripomíname, ze celkový pocet nástrojov bol 174.)
1. Bola udaná konstruktová, obsahová alebo kritériálna validita (40). Pri dvoch výskumných nástrojoch autori uplatnili po dva zdroje validity.
2. Islo o standardizovaný nástroj, ktorý mal overenú validitu alebo to bol uznávaný (established) nástroj (5).
3. Face validita urcená autormi stúdie (1).
4. Výskumný nástroj bol prilozený k stúdii v plnom znení. Validita vsak nebola dokladovaná (10).
Prvý spôsob má najväcsiu dôkazovú silu. Validita sa urcila pre konkrétny výskumný nástroj, konkrétnu vzorku subjektov a pre dané výskumné podmienky. Standardizovaný výskumný nástroj je výborná alternatíva, ale dali sme ho na druhé miesto, pretoze funguje dobre len vtedy, ked sa výskumná vzorka a podmienky výskumu nelísia od tých, ktoré boli pri standardizácii. Uznávaný výskumný nástroj je taký, ktorý bol mnohokrát pouzitý vo viacerých výskumoch, v ktorých sa vzdy potvrdila jeho validita. S istou mierou neistoty jeho validita môze platit aj v inom výskume, ktorý bol zrealizovaný za podobných podmienok aj ked sa pri nom výpocty neuskutocnili. Uznávaný výskumný nástroj vsak na rozdiel od standardizovaného nemá k dispozícii normy, cize jeho moznosti sú obmedzenejsie. Face validita je zalozená na kvalifikovanom hodnotení expertov; je v poriadku, ked nejde o tazko identi- fikovatelnú vlastnost, t. j. ked sa od posudzovatelov nevyzaduje vysoký stupen vyvodzovania, ako je to napr. pri teste vedomostí z urcitého uciva geogra fie. Pri zlozitejsích vlastnostiach, ako je napríklad vnímaná zdatnost (selfef ??icacy) cloveka pre urcitú cinnost budú rozdiely medzi odhadom expertov väcsie. Ak je výskumný nástroj prilozený k stúdii, je to lepsie ako ked nie je dokladovaná nijaká validita. Citatel môze jeho validitu preskúmat. Existuje tiez sanca, ze sa pouzije v iných výskumoch, kde sa jeho validita overí.
4.5 Dokladovanie reliability
Výskumný nástroj musí byt dostatocne reliabilný, aby s ním mohol výskumník pracovat, a preto je reliabilita výskumného nástroja rovnako dôlezitá vlastnost ako validita. Údaj o reliabilite bol uvedený u 79,6 % výskumných nástrojov.
Najviac bolo zastúpené vyjadrenie vnútornej homogenity výskumného nástroja pomocou koeficientu alfa - asi preto, lebo sa výhodne pouzíva pri posudzovacích skálach, co bol najcastejsí typ výskumného nástroja. Koeficient alfa bol uvedený pri 91 nástrojoch. Z nich 31,7 % boli originálne nástroje autorov stúdií, 58,3 % tvorili prevzaté nástroje, ktoré vsak autori stúdií reliabilizovali na vlastnej vzorke respondentov, a len v 10 % prípadov sa autori stúdií uspokojili s reliabilitou, ktorú uviedli konstruktéri nástroja pri vlastnej vzorke respondentov. Tretí spôsob je najmenej vhodný. Samozrejme, este horsí prípad je neuvedenie nijakého údaju o reliabilite (16 nástrojov). Za komentár stojí najmä vysoký pocet výskumných nástrojov, ktoré boli prevzaté a reliabilizované v nových podmienkach. To je velmi dobrá stratégia, pretoze, ako sme uviedli, v nových podmienkach sa nástroj môze správat odlisne, a preto jeho psychometrické vlastnosti je potrebné vzdy overit. Koe- ficient alfa sa v analyzovaných stúdiách pohyboval väcsinou nad 0,80, teda dostatocne vysoko.
Na druhom mieste pokial ide o frekvenciu spôsobu zistovania reliability bola zhoda medzi posudzovatelmi (inter-rater), a to pri 21 výskumných nástrojoch. Pouzili sa jednak pri metóde pozorovania, jednak pri testoch. V druhom prípade islo o úlohy, v ktorých sa skórovali odpovede na viacstupnovej skále. Pri takýchto typoch testových úloh je vzdy vhodné si overit, ci sa tá istá odpoved vyhodnocuje rovnako. Zhoda medzi posudzovatelmi (po zacvicení) bola velmi vysoká - nad 0,90. Zistovanie reliability opakovaným meraním po casovom odstupe (test-retest) sa uplatnilo najmä vo výskumoch, kde subjekty presli intervenciou (typicky vo vyucovacom experimente) a zisovalo sa, ci merací nástroj na pretest-posttest zostal dostatocne reliabilný aj na konci intervencie. Pouzité nástroje boli testy, posudzovacie skály, dotazníky alebo pozorovacie schémy (16 nástrojov). Reliabilita sa pohybovala od 0,68 do 0,95, väcsinou vsak nad 0,80.
Metodologické ucebnice väcsinou uvádzajú minimálnu poziadavku 0,80 na reliabilitu výskumného nástroja. Koe..icient 0,70 uz naznacuje, ze nástroj má isté problémy (Kline, 2000, s. 13-15). Pri údaji 0,60 je potrebné k výskumnému nástroju pristupova opatrne. Pri standardizovaných testoch, ktoré sú dostatocne overené, je namieste poziadavka 0,90 a vyssia (Hopkins, 1998).
Toto sú ucebnicové odporúcania. Výskum sa vsak uskutocòuje v konkrétnych podmienkach, ktoré ovplyvòujú reliabilitu, a preto údaj o reliabilite je potrebné interpretova vzdy z hladiska týchto podmienok. Nástroje mávajú rôznu reliabilitu vzhladom na ludské vlastnosti, ktoré merajú. Test vedomostí z daného okruhu uciva by mal ma spravidla vyssiu reliabilitu ako posudzovacia skála záujmov a postojov a tá vyssiu ako test tvorivosti. Vplyvným faktorom je tiez obaznos poloziek nástroja. Preto je velmi dôlezité, aby výskumník svoj nástroj opísal dos podrobne, aby si citatel o òom utvoril plastický obraz. Dobrou praxou je pripoji k stúdii plné znenie výskumného nástroja (bolo to v osemnástich stúdiách) alebo aspoò ukázky poloziek (velmi casto). Niekde bol opísaný celý vývoj výskumného nástroja, i keï sa redakcia vyhýba uverejòova takéto stúdie.
Dalsím faktorom, ktorý ovplyvòuje reliabilitu, je velkos a charakter výskumnej vzorky. Je známe, ze u homogénnej vzorke býva reliabilita nizsia ako u nehomogénnej vzorke a vice versa. Test studijných schopností má u ziakov základnej skoly vyssiu reliabilitu ako u ziakov gymnázia, pretoze vzorka ziakov gymnázia je z hladiska studijných schopností homogénnejsia ako u ziakov základnej skoly. Pohlad na rozptyl skóre tiez pomôze interpretova, preco je reliabilita nízka. V kazdej z analyzovaných stúdii bola výskumná vzorka opísaná velmi podrobne, a to nielen z hladiska lokality, veku a genderu subjektov, ale aj ich etnickej príslusnosti. Ak to bolo potrebné z hladiska zamerania stúdie, uviedli sa aj ïalsie ukazovatele, napr. poberanie skolskej stravy zadarmo alebo za znízenú cenu, ako ukazovatel sociálno-ekonomického statusu rodiny, percento detí so speciálnymi potrebami, postihnutím, materinským jazykom iným ako anglictina a pod.
Pocet poloziek v nástroji je dalsím determinantom reliability. Dlhsie nástroje majú spravidla vyssiu reliabilitu ako kratsie nástroje. Dôlezité je tiez rozlisovat, kedy autori uvádzajú reliabilitu za celý nástroj a kedy za jednotlivé dimenzie, pretoze tie majú nárok na nizsiu reliabilitu. Dlzka vsak nie je jediná vlastnost nástroja, ktorá ovplyvnuje reliabilitu. Tá tiez závisí od poctu dimenzií, velkosti ich vzájomnej korelácie a priemeru interkorelácií poloziek v celom nástroji.
Seitsingerová (2005) pouzila vo svojom výskume nástroj nazvaný Classroom Instructional Practice Scale, ktorý zistoval, v akej miere ucitelia v USA pokrývajú predpísané ucivo a aká je struktúra ich vyucovacích postupov a stratégií. Islo o sebahodnotiaci, prevzatý nástroj. Mal 16 dimenzií (napr. vyucovanie v malých skupinách, rozvoj kritického myslenia, komunitné ucivo, vyucovanie obcianskych a sociálnych zrucností, ucenie o zdraví, vyuzívanie literárnych zdrojov a pod.). Celková reliabilita bola velmi vysoká (0,95) zrejme aj preto, lebo nástroj bol velmi dlhý, obsahoval 86 poloziek. Reliabilita jednotlivých dimenzií bola v rozmedzí 0,24 a 0,79 (nie je udané, kolko poloziek mali dimenzie).
4.6 Porovnanie vyjadrovania validity a reliability
Základným zistením je, ze reliabilita bola vyjadrovaná ovela castejsie ako validita, pricom pomer je priblizne 3 : 1. Prevahu vyjadrovania reliability môzeme vysvetlit jednoduchsím spôsobom jej zistovania najmä pri posudzovacích skálach, ktoré tvorili najfrekventovanejsí výskumný nástroj. Niektorí autori zistovali reliabilitu výskumného nástroja viacerými metódami, pricom väcsinou pouzili výpocet vnútornej konzistencie a stability. Na druhej strane pri zistovaní validity výskumných nástrojov sa viaceré spôsoby pouzili málokedy - konstruktová spolu so súbeznou len dvakrát, konstruktová spolu s diskriminacnou trikrát. Tento nízky pocet tiez dokumentuje situáciu validity v porovnaní s reliabilitou výskumných nástrojov.
5 Diskusia
Nasím cielom bolo posúdit validitu a reliabilitu výskumných nástrojov, ktoré boli pouzité vo vybraných stúdiách daného casopisu. Z piatich otázok polozených na zaciatku výskumu, na ktoré sme hladali odpovede, priniesli tri také informácie, ktoré neboli celkom predpokladané.
Pokial ide o druhy výskumných nástrojov v skúmaných stúdiách, bolo prekvapením velmi vysoké zastúpenie posudzovacích skál a testov, ktoré pokryli takmer 91 % pouzitých výskumných nástrojov. Výskumník si volí výskumný nástroj podla ciela svojho výskumu, ale svoj výskumný ciel si nastavuje aj podla dostupných výskumných nástrojov. Nemôze si totiz stanovit ciel, na riesenie ktorého nemá instrumentálne moznosti. Do hry pri volbe výskumných nástrojov vstupuje aj pragmatický aspekt. Posudzovacie skály a testy majú výborné moznosti hromadnej administrácie, dobré statistické moznosti a moznosti zistovania reliability (v porovnaní s interview a pozorovacími schémami). To ich zrejme favorizovalo pri výbere do konkrétnych výskumov. Velké mnozstvo hotových posudzovacích skál a testov, ktoré autori stúdií prevzali z iných výskumov zdôvodnuje ich frekventovaný výber. Navyse, ako sme ukázali, výskumníci pristupovali k prevzatým nástrojom velmi flexibilne - skracovali ich, kombinovali, zlucovali viaceré nástroje tak, aby to vyhovovalo cielom výskumu.
Nepredpokladaným zistením bol velký pocet výskumných nástrojov v jednom výskume, co ukazuje, ze autori riesili komplexné, siroké otázky, na zodpovedanie ktorých nevyhnutne potrebovali viaceré výskumné nástroje. Pouzili viaceré premenné, medzi ktorými hladali vztahy a spojenia. Túto snahu môzeme vsadit do sirsieho koncepcného rámca kvantitatívneho výskumu. Disman (1993) vo svojej téze o informacnej redukcii vyjadruje myslienku, ze ziadny výskum nemá moznost uchopit realitu v plnosti, pretoze je nesmierne zlozitá. Preto ju redukuje na skúmatelný úsek, zlozky alebo rovinu. Nasadenie velkého mnozstva premenných a pocetných výskumných nástrojov v skúmaných stúdiách je snahou zmiernit uvedenú redukciu informácií a postupnými krokmi sa priblízit k plnsiemu opisu reality.
Tretia výskumná otázka sa týkala spôsobu validizácie a reliabilizácie výskumných nástrojov. Zistenia zodpovedali cielom výskumu a moznostiam výskumných nástrojov. Najfrekventovanejsím spôsobom validity bola konstruktová validita. Tu sa na chvílu zastavíme. Ako je známe, tvorba výskumného nástroja (pre zjednodusenie budeme mat na mysli len posudzovacie skály) prebieha tak, ze výskumník na základe svojej interpretácie príslusného konstruktu zostaví polozky výskumného nástroja a podrobí ich validizácii pomocou faktorovej analýzy (pred nou este uskutocní polozkovú analýzu). Tu je potrebné pripustit, ze faktorová analýza by mala s istou pravdepodobnostou potvrdit autorovu interpretáciu, ved dané polozky nástroja vznikli na jej základe (a nevhodné boli eliminované v procese polozkovej a faktorovej analýzy). To ukazuje, ze proces konstruktovej validizácie je akoby uzavretý do seba a sám seba potvrdzuje. Na to, aby autor zistil, ci konstrukt dobre interpre toval pri navrhovaní poloziek svojho výskumného nástroja a ci boli polozky dobre sformulované, by sa mal presvedci este zistením súbeznej a diskriminacnej validity. V prvom prípade ide o zistenie, ci jeho výskumný nástroj dobre koreluje s inými nástrojmi, ktoré merajú totozný konstrukt. V druhom prípade ide o zistenie, ci jeho výskumný nástroj nízko alebo záporne koreluje s výskumným nástrojom, ktorý meria úplne odlisný konstrukt. Týmto postupom by sa dokazovací kruh otvoril a konstruktová validita by sa mohla povazova za dokázanú. Ako sme uviedli v casti 4.6, súbezná a diskriminacná validita sa vsak zisovala len v niekolkých prípadoch, co povazujeme za slabinu validizacného procesu v skúmaných stúdiách.
Doklad o validizácii a reliabilizácii pouzitého výskumného nástroja (stvrtá otázka) je dôlezitou informáciou vedúcou k zisteniu, ci sa uskutocnila vhodne a korektne. Citatel casopisu by mal ma dostatok relevantných informácii o tom, ako validizácia a reliabilizácia prebehla a aký mala výsledok, aby mohol úroveò výskumu hodnoti a interpretova. S prekvapením sme vsak zistili, ze takmer tri stvrtiny výskumných nástrojov nemalo uvedený údaj o validite, a tým ani o spôsobe validizácie. V texte sme vysvetlili, ze tento na prvý pohlad hrubý nedostatok mozno zmierni, keï sa na výskumné nástroje pozrieme podrobnejsie. Mnohé z nich mali zrejmú (face) validitu, a to casto formálne (expertne) potvrdenú. Osemnás výskumných nástrojov (zo 174) bolo dolozených in extenso; ak tak nebolo a islo o nový nástroj, autori obycajne uviedli aspoò príklady poloziek. To je dobrý krok umozòujúci citatelovi posúdi validizáciu daného výskumného nástroja. Reliabilita bola dokumentovaná castejsie ako validita, co mozno pripísa okrem iného pohodlnej moznosti jej zisovania u posudzovacích skál a testov, najfrekventovanejsích výskumných nástrojov v nasej vzorke stúdií.
Pokial ide o piatu otázku, ci bola validita a reliabilita pouzitých výskumných nástrojov dostatocne vysoká, odpoveï je pozitívna. Velká väcsina výskumných nástrojov mala koe..icient reliability 0,80 a vyssí; jednotlivé dimenzie výskumných nástrojov vsak mali niekedy reliabilitu nizsiu, a to najmä kvôli mensiemu poctu poloziek. Vysoká reliabilita výskumných nástrojov je dobrou správou, pretoze ona je aj nevyhnutnou podmienkou ich dostatocnej validity (Kline, 2000, s. 15).
Pri celkovom hodnotení psychometrickej stránky výskumných nástrojov v nasom výbere stúdií môzeme konstatova velmi dobrú úroveò. Ak sa vyskytli odchýlky od pozadovaných princípov, tieto boli prirodzené a zdôvodnitelné. Ukázala sa tiez stabilita postupov validizácie a reliabilizácie v case. Analyzované stúdie pokryli obdobie siestich rokov; pocas ktorých sme nezistili zmeny trendu v ziadnej zo skúmaných otázok tohto výskumu.
Zostáva este vyjadrit sa k motivácii tohto príspevku vyjadreného na jeho zaciatku - ci v podmienkach dynamického rozvoja metodológií zostali klasické postupy vyjadrovania validity a reliability výskumných nástrojov stabilné. Pohlad do analyzovaných císiel casopisu ukazuje, ze piliere kvantitatívnych výskumov zostali neporusené. Validita a reliabilita zostávajú nevyhnutnou súcastou dobrých kvantitatívnych výskumov, ale pri jej posudzovaní je potrebné prihliadat k specifickým podmienkam a moznostiam konkrétneho výskumu.
V texte sme sa vyhli explicitnému porovnávaniu validity a reliability výskumných nástrojov v analyzovaných stúdiách so situáciou v nasich pedagogických casopisoch - a ani v tomto závere to nemienime urobit. Nielen preto, ze k dispozícii nemáme príslusné údaje na komparáciu, ale aj preto, lebo sa obávame, ze mechanické porovnávanie s výskumami, ktoré vznikli za iných podmienok skrýva v sebe mnoho nástrah. Tým vsak netvrdíme, ze by sa takáto analýza nemohla uskutocnit. V prvej aproximácii by sa vsak mala dat prednost analýze na "vnútrostátnej" úrovni.
Krejcí, J., & Leontiyeva Y. (Eds.). (2012). Cesty k datùm. Zdroje a management sociálnìvìdních dat v Ceské republice. Praha: SLON.
Prostøedí pro vìdeckou práci v sociálních vìdách prochází pøekotným vývojem. Jedním z dùvodù je také rostoucí objem dat, která jsou k dispozici pro sociální analýzy. Vyuzívání nových mozností i zpøístupòování vlastních databází bývá podmínkou pro plnohodnotné zapojení do zivota mezinárodní vìdecké komunity a pro dosahování výsledkù s uznávaným vìdeckým impaktem. Efektivní práce s daty vsak vyzaduje orientaci v nepøehledném mnozství zdrojù, zvládnutí metod managementu dat a sekundární analýzy i orientaci v právních a formálních nálezitostech sdílení dat mezi výzkumnými týmy. Autoøi a autorky této knihy se právì proto zamìøují na problematiku vytváøení a pouzívání kvantitativních sociálních dat, vìnují se metodám managementu dat a pøedstavují sluzby datových archivù. Zvlástní pozornost vìnují problematice harmonizace dat pro úcely casových a mezinárodních komparací. Velkou cást knihy tvoøí pøehledové studie o dostupných datech vcetnì hlubsích rozborù a analýz datových zdrojù k vybraným tématùm. Kniha je primárnì zamìøena na akademický sociální výzkum, své ctenáøe si ale jistì najde i ve výzkumu pro potøeby státní administrativy, v soukromých výzkumných agenturách i mezi novináøi a vsemi, kteøí pracují s výstupy sociálních výzkumù. Jaké jsou zdroje dat v sociálních vìdách? Kde hledat a jak získat data z pøedchozích setøení a sociálních statistik? Jak úspìsnì realizovat vlastní výzkumný projekt? Jakých mezinárodních setøení se zúcastnila Ceská republika? Jsou data z mezinárodních setøení srovnatelná? Jak mìøit vzdìlání a sociální postavení tak, aby byly výsledky srovnatelné? Kde najít data o gramotnosti populace, politických postojích, názorech na nábozenství, manzelství a rolích v rodinì nebo data o migraci? Jaké databáze vytváøí Ceský statistický úøad a k cemu jsou vyuzitelné?
1 Ide o standardy pre pedagogické a psychologické meranie, ktoré vydávajú spolocne Americká asociácia pre pedagogický výskum, Americká psychologická asociácia a Národná rada pre meranie vo výchove, a ktoré sú v USA respektovanou normou pre tvorbu a pouzívanie výskumných a diagnostických nástrojov.
2 Nie vsak extrémne vysoké (napr. nad 0,95), pretoze to naznacuje, ze polozky sú takmer totozné. A to zase spochybnuje validitu nástroja.
3 Klasici metodológie výskumu Nunnally a Cronbach (cit. podla Kline, 2000, s. 43) tvrdili, ze je to najlepsí index reliability vôbec. Kedze je jeho výpocet aj pohodlný, spájajú sa v nom dve ideálne vlastnosti.
4 Clánky z rocníkov 2012 a 2013 neboli dostupné v databáze ProQuest Central alebo v inej databáze a neboli ani volne dostupné na webovej stránke casopisu. Vydavatel poskytuje prístup k stúdiám z týchto rocníkov za poplatok USD 28 za jednu stúdiu. Vzhladom na to, ze analýza týchto rocníkov by nepriniesla iný obraz o výskumných nástrojoch, ako bol ten z nizsích rocníkov, povazovali sme zakúpenie clánkov z týchto rocníkov za nehospodárne. Preto sme ich analýzu neuskutocnili.
5 Terminológia súvisiaca s rôznymi druhmi výskumných nástrojov v anglictine je dost komplikovaná. Slovenským výrazom dotazník sa obycajne prekladajú tri anglické výskumné nástroje: questionnaire (dotazník), checklist, inventory (inventár), scale (skála). Zlé je aj to, ze anglický výraz scale (v jednotnom císle) znamená vlastne súbor skál, nie jeden výskumný nástroj zalozený na skálovaní. Niekedy sa vo význame súboru skál dokonca pouzíva výraz test (napr. Test rodinného prostredia J. Senku, Záujmový test VRIOT, Test diferenciácie záujmov DIT a pod.). Sociometrický test (v terminológii J. L. Morena) je vlastne posudzovacia skála. Pri analýze výskumných stúdií sme sa usilovali zistit typické crty výskumného nástroja a podla nich ho kategorizovat podla tu uvedených definícií.
6 Situáciu trosku zjednodusujeme. Ak dáme ziakom diktát, v ktorom je vela neznámych slov, potom to uz nie je len test pravopisu, ale aj slovnej zásoby, príp. test odhadu významov, jazykového citu a pod. Tu uz ide o inú vlastnos, teda aj o inú validitu.
Literatúra
Bang, H. J. (2011). Newcomer immigrant students' perspectives on what affects their homework experiences. The Journal of Educational Research, 104(6), 408-419.
Disman, M. (1993). Jak se vyrábí sociologická znalost. Praha: Vydavatelství Karolinum.
Duatepe-Paksu, A., & Ubuz, B. (2009). Effects of drama-based geometry instruction on student achievement, attitudes, and thinking levels. The Journal of Educational Research, 102(4) 272-286.
Edmonds, E., O'Donoghue, C., Spano, S., & Algozzine, R. F. (2009). Learning when school is out. Journal of Educational Research, 102(3), 213-221.
Elliot, J. (2012). Using narrative in social research. Qualitative and quantitative approaches. Los Angeles: Sage.
Handelsman, M. N., Briggs, W. L., Sullivan, N., & Towler, A. (2005). A measure of college student course engagement. Journal of Educational Research, 98(3), 184-189.
Hendl, J. (2005). Kvalitatívní výzkum. Základní metody a aplikace. Praha: Portál.
Hong, E., & Milgram, R. M. (2000). Homework: Motivation and learning preference. Westport, CT: Bergin & Garvey.
Hoover-Dempsey, K. V., Battiato, A. C., Walker, J. M., Reed, R. P., De-Long, J. M., & Jones, K. P. (2001). Parental involvement in homework. Educational Psychologist, 36(3), 195-209.
Hopkins, K. D. (1998). Educational and psychological measurement and evaluation, 8th edition. Boston: Allyn and Bacon.
Janík, T., & Miková, M. (2006). Videostudie: výzkum výuky zalozený na analýze videozáznamu. Brno: Paido.
Kline, P. (2000). Handbook of psychological testing. 2nd edition. London: Routledge.
Koh, C. K., Wang, J., Tan, O. S., Liu, W.C., & Ee, J. (2009). Bridging the gaps between students' perceptions of group project work and their teachers' expectations. Journal of Educational Research, 102(5), 334-347.
Madrid, L. S., Canas, M., & Ortega-Medina, M. (2007). Effects of team competition versus team cooperation in classwide peer tutoring. Journal of Educational Research, 100(3), 155-160.
Najvar, P., Najvarová, V., Janík, T., & Sebestová, S. (2011). Videostudie v pedagogickém výskumu. Brno: Paido.
Prinz, R. J., Foster, S. L., Kent, R. N., & O'Leary, K. D. (1979). Multivariate assessment of conflict in distressed and non-distressed mother-adolescent dyads. Journal of Applied Behavior Analysis, 12(4), 691-700.
Salvia, J., & Ysseldyke, J. E. (1998). Assessment. 7th edition. Boston: Houghton Mifflin Company.
Seitsinger, A. (2005). Service learning and standards-based instruction in middle schools. Journal of Educational Research, 98(1), 19-30.
Shih, S. S. (2009). An examination of factors related to Taiwanese adolescents' reports of avoidance strategies. Journal of Educational Research, 102(4), 377-388.
Standards for educational and psychological testing. (1999). Washington: American Educational Research Association.
Suarez-Orozco, C., & Suarez-Orozco, M. (2001). Children of immigration. Cambridge, MA: Harvard University Press.
Peter Gavora
Univerzita Tomáse Bati ve Zlíne, Fakulta humanitních studií, Centrum výzkumu
Redakci zasláno 1. 4. 2013 / upravená verze obdrzena 4. 6. 2013 / k uverejnení prijato 24. 6. 2013
Autor
Prof. PhDr. Peter Gavora, CSc., Univerzita Tomáse Bati ve Zlíne, Fakulta humanitních studií, Centrum výzkumu, Mostní 5139, 760 01 Zlín, e-mail: [email protected]
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Copyright Pedagogicka Orientace Journal 2013
Abstract
The aim of the paper was to explore how principles of estimating validity and reliability of research instruments, as described in respected methodology textbooks, are satisfied. The initial parts of the paper delineate the theoretical framework and describe the concepts of validity and reliability. The following sections of the paper explain the process of analysis and its findings. The Journal of Educational Research was chosen as the research focus. A sample of 56 randomly selected articles from it has been inspected. The analysis revealed that a large majority (91 %) of research instruments used in these articles was scales and tests, the rest were questionnaires, observation schemes and interviews. Surprisingly, validity was calculated only with 26 of instruments; the rest of instruments were standardized tests or they were face validated. As far as scales are concerned, construct validity was documented by means of factor analyses. Content validity and face validity were used in tests, questionnaires and interviews. We consider the infrequent use of combination of two sources of validity (e.g., construct and concurrent or discriminant) to be a weak element in the validation processes in the sample of studies. Reliability was documented with 80 % of research instruments. The most frequent method of calculation was Cronbach's alpha. Inter-rater reliability was used in observations and tests; test-retest reliability was used to control the stability of the pretest-posttest measuring instrument. The size of reliability coefficients in most of studies exceeded 0.80. Throughout the analysis it was corroborated that when judging validity and reliability one has to critically consider the specific conditions of each research study before expressing an evaluation statement. [PUBLICATION ABSTRACT]
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer