Nejlepší metody ověřování didaktických testů: Klíčové principy, které musíte znát!

Rok co rok se tisíce žáků účastní státní maturitní zkoušky a rok co rok nastane kontroverze okolo jedné nebo více zadaných úloh. Centrum pro zjišťování výsledků ve vzdělávání (CZVV, také známé jako CERMAT) - zodpovědné vedle maturitní zkoušky rovněž za jednotnou přijímací zkoušku - bývá vystavováno kritice za obsah testu i podobu jednotlivých úloh. Jednu z těchto kritik dokonce stvrdil svým rozhodnutím soud. Na základě testů administrovaných CZVV se rozhoduje o dalších příležitostech ve vzdělávání i v životě žáků základních i středních škol. Není divu, že jejich podoba je předmětem takového zájmu zasažené veřejnosti.

Podstatná část představ, které si děláme o fungování našeho vzdělávání, bude vycházet z nějakého testu znalostí nebo dovedností. Například v roce 2018 jsme se srovnávali se zbytkem světa ve výsledcích testování PISA, v roce 2019 to bylo zase měření TIMSS. O výsledky mezinárodních šetření se opírá práce státních i neziskových aktérů nebo i podstatná část veřejné diskuze o českém vzdělávání. Velká mezinárodní testování pro nás hodně znamenají - částečně možná proto, že příliš nezvládáme provádět vlastní.

Význam a dopady testování ale nejsou výhradní výsadou veřejné sféry. Společnost SCIO zajišťuje přijímací zkoušky k vysokoškolskému studiu pro řadu fakult. Přes široce užívaný test Obecných studijních předpokladů se tento soukromý hráč de facto stal jedním z hlasů určujících, jaké kompetence se od absolventů středních škol (se zájmem o vysokoškolské studium) očekávají. Ověřování dovedností totiž není jen pasivní pozorování výsledků.

Ilustrace znázorňující různé typy testů a jejich využití

Česká veřejná debata o zjišťování výsledků ve vzdělávání se zpravidla točí okolo kvality jednotlivých úloh nebo důležitosti dílčích dovedností v tom kterém testu.

Účel a metody testování

Zjišťovat výsledky vzdělávání lze různými - více i méně kreativními - způsoby: standardizovanými testy, ročníkovými pracemi a portfolii žáků, zkoušením před odbornou komisí, praktickou zkouškou nebo klasicky učitelem před tabulí. Stejně tak je celá řada účelů, kterým může zjišťování výsledků sloužit.

OECD v roce 2012 zveřejnila zprávu o tom, jak se v českém vzdělávání s hodnocením nakládá. Z hlavních závěrů zprávy vyplývá, že se naše vzdělávání v problematice hodnocení výsledků vzdělávání myšlenkově trošku zaseklo. Za uplynulých 8 let ale došlo v této oblasti k zřetelnému posunu. Česká školní inspekce, každoročně realizuje v České republice elektronické zjišťování výsledků žáků v různých ročnících, předmětech, vzdělávacích oblastech i gramotnostech, na základních, středních o vyšších odborných školách, a to prostřednictvím inspekčního systému elektronického testování InspIS SET.

Získané informace o žákovských výsledcích slouží jako jeden z důležitých zdrojů pro komplexnost výpovědí o kvalitě a efektivitě vzdělávací soustavy. Slouží také jako jeden z podkladů pro komplexní zpětnou vazbu určenou tvůrcům vzdělávacích politik nebo pro diskuze o nastavení národního kurikula a jeho revizích. Současně na základě zjištěných výsledků zpracovává různě zaměřené analytické dokumenty, které mohou posloužit dalším aktérům ve vzdělávání (samotné školy, jejich zřizovatelé, kraje, ORP, MAP, rezortní organizace MŠMT, fakulty vzdělávající učitele apod.).

Na úrovni jednotlivých škol, jejichž žáci jsou do pravidelných zjišťování výsledků vzdělávání zapojeni, poskytuje Česká školní inspekce formativně orientované výsledkové sestavy referující jak o výsledcích školy jako celku, tak o výsledcích jednotlivých tříd i konkrétních žáků, včetně různě orientovaných srovnání. Každý testovaný žák se z poskytnuté výsledkové sestavy navíc dozví nejen to, jak uspěl v celém testu, ale také jak uspěl v jeho jednotlivých částech. Výsledkové přehledy jsou opatřeny komentářem podrobně vysvětlujícím to, jak je vhodné na výsledky nahlížet, jakou informaci výsledky poskytují a naopak jakou informaci z nich vyčíst nelze, což významně snižuje riziko nevhodné práce s výsledky na úrovni školy.

Grafické znázornění struktury InspIS SET

Zmíněná zpráva České republice doporučuje v první řadě rozšířit si přehled o tom, jak lze zjišťování výsledků provádět a k čemu všemu by šlo využít. K poslednímu bodu je v závěrech zprávy doslova uvedená potřeba vytvořit odborné kapacity „v oblasti měření výsledků vzdělávání, vývoje testů, validace testových úloh či metod škálování, které jsou v České republice nedostatkové.“

Vývoj a validace didaktických testů

Co si má ale člověk pod vývojem testů představit? Sestavit kvalitní didaktický test přece nemůže být o tolik těžší, než napsat dobré zadání písemky. S troškou nadsázky lze říct, že ve vzdělávání buď jednoduše změříme to, co se měří snadno, nebo složitě to, na čem záleží. Abychom dokázali odlišit dobré testy od špatných, musíme být schopni posoudit je z celé řady hledisek: didaktického, statistického, systémového, ale například i etického. Takový rámec pro široké posuzování testů vytvořili na základě velkého přehledu validačních metod badatelé Newton a Shaw.

Testový skór má zpravidla představovat úroveň nějaké vlastnosti nebo dovednosti. Je ale těžké sestavit kvalitní test, pokud sami nevíme, co by měl vlastně měřit. Za každým pojmem jako je čtenářská gramotnost, kompetence k učení nebo i vágní matematika potřebujeme mít jasnou teorii vysvětlující, co přesně jím míníme.

Při vývoji testů často vycházíme z představy, že existuje nějaká měřitelná dovednost, která má stejnou podobu, bez ohledu na to, jakou cestou se k ní člověk dostane. Schopnost řešit matematické úlohy můžeme nabýt frontální i např. badatelskou výukou. Jo-Anne Baird ale tento předpoklad rozporuje - k učení dochází v kontextech nejrůznějších komunit, škol, kultur, potřeb a dalších věcí. Naučené vědomosti i způsoby uvažování jsou tak nakonec vždy unikátní - někdo se učil fyziku v laboratoři a půjdou mu úlohy s konkrétními příklady, někdo zase s rodičem matematikem a nejlépe mu bude mezi vzorečky a abstraktními úlohami. Autoři hodnocení se potřebují zabývat nejenom tím, jaké vědomosti nebo dovednosti měří, ale také zda jimi použité metody testování odpovídají tomu, kde se tyto vědomosti s dovednostmi vzaly.

Můžeme si dlouze lámat hlavu nad tím, jak a co by měl test měřit a z jakých úloh by měl sestávat. Existuje ale určitá mez toho, co můžeme vymyslet a odpovědět od stolu. Jistě se dá hodiny diskutovat o vhodnosti té které formulace zadání. Při první úvaze se nám třeba může zdát, že někdo je prostě dobrý detektiv a někdo ne. V praxi ale vidíme, že některé kroky v řešení případu jdou lépe Sherlockovi (dedukce a analýza tabákového popílku) a některé zase Watsonovi (srozumitelné shrnutí postupu práce a komunikace s lidskými svědky).

Psychometrie a její role

Psychometrie je obor, který se podobným způsobem zabývá prací s daty z testování. Na základě statistických analýz posuzuje takové věci, jako je přesnost měření (Jak často v testu neuspějí jinak kompetentní žáci?), počet rozměrů měřené dovednosti (Může být někdo dobrý v geometrii, a přesto špatný v integrálech?). Dobrá psychometrie nám sama o sobě kvalitní test nezajistí. Bez ní ale diskuze o kvalitě měření může velice snadno sklouznout do roviny teorií a dojmů.

Schéma znázorňující vztah mezi psychometrií a vývojem testů

Dopady testování

Existují názory, že každý test by měl sloužit jen jedinému specifickému účelu - maturitní zkouška na konci studia razítkuje žáky a PISA dělá ze vzdělání mezistátní dostihy, tečka. Paul E. Ne každý test ale poslouží dobře každému účelu - přesnost kuchyňských vah stačí k domácímu pečení chleba, ale v lékárnách se používají jen zřídka (a když už, je to trošku podezřelé).

Vezměme si smyšlený příklad přijímacích zkoušek na vysokou školu. Hypotetické vedení chce své vysoké škole ušetřit práci s výukou. Hledá proto takový test, který úspěšně vybere žáky, kterým půjde studium víceméně samo. Prakticky to znamená, že rozdíly mezi skóry v testu jednotlivých uchazečů se budou rovněž odrážet ve známkách, které během studia obdrží. Bohužel, podle studie Bartákové, Chvála a Martinkové přijímací testy českých vysokých škol vysvětlují jen mezi 4 a 16 % rozdílů ve známkách mezi studenty. Špatně nastavené přijímací řízení může nespravedlivě vyřadit studenty, kteří by jinak měli šanci úspěšně dostudovat, a hůř dopadá na skupiny, kterým se v něm systematicky nedaří (jak podotýkal už v roce 1971 Robert Thorndike).

V veřejné diskuzi se objevují hlasy, že nebýt maturitní zkoušky, žáci se přestanou učit, vyrazí do ulic a ze středních škol můžeme udělat skladiště bramborového škrobu. Nezamýšlenými dopady testu je třeba se zabývat stejně jako těmi zamýšlenými. Musíme ukázat, že test pomáhá (tvrdíme-li, že pomáhá) a dokázat, že neškodí (tvrdíme-li, že neškodí). Jistě se můžeme přít, na kom a kdy leží dokazovací povinnost, ale většinu takových debat stejně dříve nebo později budeme muset empiricky rozseknout.

Zpětným dopadům testování na to, jak se učí, se v odborné literatuře říká washback. Příkladem takového washbacku je standardizované testování v rámci vzdělávací reformy No Child Left Behind v USA. Původní záměr testování byl jednoduchý: pojďme testováním zjistit, jak školy učí. Dobré pojďme odměnit, špatné zkusme napravit, případně trestat. Jenomže jak poukazují akademici jako Kenneth Rowe nebo David Berliner, využití testů pro posuzování kvality škol může vést k takovým dopadům, jako je redukce kurikula nebo segregace škol i celých sousedství.

V České republice se školy podle výsledků ve standardizovaných testech naštěstí systematicky neodměňují. Zato se hojně používají v přijímacích řízeních, například podle nich třídíme děti do středních škol. Máme ale představu o tom, zda naše testy jen neposílají chudší děti do horších škol? Kritik standardizovaného testování Wayne Au upozorňuje, že plošné měření výsledků jednotnými testy hraje zásadní roli ve vytváření a replikování společenských nerovností. Výsledky testů jsou určeny celou řadou faktorů, nad kterými dítě nemá kontrolu - socioekonomický status rodičů, kulturní původ a jiné. Například studie na dvojčatech výzkumného týmu Bartelse a ostatních ukázala, že výsledky testů společnosti nizozemské CITO, která inspirovala i standardizované testování v České republice, vykazují znaky dědičnosti.

V demokratické společnosti není obhajitelné omezit dětem přístup ke vzdělávání na základě toho, komu se narodily. Je nutné vést diskuzi o etičnosti zjišťování výsledků a jeho využití: je vůbec správné přístup ke vzdělání zakládat na základě vědomostí a dovedností? Co všechno tím způsobujeme dětem i našemu vzdělávání? Taková diskuze - ač v principu hodnotová - se ale neobejde ani bez empirických podkladů.

Etické rozhodování: Druhy etických dilemat

Strategie 2030+ správně zdůrazňuje potřebu vytvoření testovacích kapacit pro celé spektrum využití. Musíme být schopni dávat zpětnou vazbu žákům, školám i samotnému systému. V současnosti Česká republika buď musí přebírat výsledky mezinárodních šetření, nebo využívá testy bez příbalových letáků (tedy bez solidní dokumentace - více o potřebě transparentnosti píše Newton, 2005), jejichž validita není doložená hlubší koncepcí ani psychometrickými analýzami. Zatímco těmto testům nedůvěřujeme natolik, abychom z nich vypracovávali obecné statistické analýzy o kvalitě vzdělávání v zemi a jejím vývoji v čase, neštítíme se používat je pro potřeby certifikace a přijímacích řízení.

Velmi pěkná kapitola - hlavně však opět spíše ze školsko-politického, nikoli pedagogického hlediska. Nelze se soustředit jen na tzv. high stakes testy a jejich funkci. Ale také na další potřebné a užitečné low stakes testy. Odpůrci testování v Česku z neznalosti pedagogiky a psychologie parodují testování jen kritikou uzavřených, dichotomických položek, a tvrdí, že nemají skoro žádný přínos pro žáka, učitele i rodiče.

Podle Marthy Foote z New York Performance Standards Consortium nastal možná čas místo věčného posuzování žáků posoudit testy samotné. Je načase ověřit, zda dokáží to, co o nich jejich proponenti tvrdí, obzvlášť když se na jejich základě rozhoduje o dětech a jejich budoucnosti. Je načase vyjasnit, co od testování vlastně chceme - kde je užitečné a kde je pouze zvykem a důsledkem naší omezené představivosti. Máme-li potřebu třídit, nevybíjejme si ji na dětech.

Příklady mezinárodních šetření a jejich zaměření
Název šetření	Zaměření
PISA	Čtenářská, matematická a přírodovědná gramotnost 15letých žáků
TIMSS	Matematické a přírodovědné vzdělávání žáků 4. a 8. tříd

tags: #overovani #didaktickeho #testu

Účel a metody testování

Vývoj a validace didaktických testů

Psychometrie a její role

Dopady testování

Etické rozhodování: Druhy etických dilemat

Oblíbené příspěvky: