Vzdělávání | 19. 5. 2026

Česko používá testy jen k třídění dětí. Jejich pokrok a dopady reforem nesleduje

Bez měření výsledků těžko naplníme cíle vzdělávání.

Shrnutí

Česko na rozdíl od téměř poloviny zemí Evropy plošně neověřuje výsledky žactva. Jednotná přijímací zkouška (JPZ) ani mezinárodní testování nestačí. A není to jenom proto, že je nepíšou všichni. Testy sloužící k rozřazování žáků nebo mezinárodnímu srovnání vypadají a fungují jinak, než testy vhodné pro podporu žáků nebo monitoring naplňování národního kurikula.
Potřebujeme kvalitní databázi vzdělávacích výsledků. Musí pokrývat všechny žáky v opakovaných měřeních. Musí být propojena s dalšími zdroji informací a sloužit různým aktérům, od učitelů až po instituce řídící vzdělávání. Především pak musí obsahovat informace zjišťované kvalitními testy, vyvinutými specificky pro monitorování výsledků.
Bez dat o výsledcích žáků nedokážeme ověřovat dopady opatření (např. asistentů pedagoga či obědů zdarma), plánovat reformy ani pravidelně sledovat, jak se daří rozvíjet kompetence pro život a snižovat nerovnosti. To přitom představuje dva hlavní cíle české strategie vzdělávání.
Testování nemá vytvářet žebříčky, ale ověřovat, jak se žákům daří v různých oblastech. Ověřovat potřebujeme úroveň čtenářské a matematické gramotnosti nebo psychické pohody. Stejně tak je nutné sledovat, jaké metody a opatření pomáhají ve vzdělávacím posunu žáků.
Efektivní sledování výsledků vyžaduje jasné cíle a obsah testů, jejich provázanost s výukou, důkladné pilotování a zajištění férovosti pro všechny žáky.
Sbírat data o výsledcích nestačí. V současnosti nemáme moderní databázi žáků, dokonce ani nepoužíváme unikátní identifikátor žáka. Bez kvalitní datové infrastruktury je využitelnost výsledků omezená. Zavádění plošných ověřovacích testů proto musí doprovázet rozvoj digitálních systémů.
V této studii podrobně popisujeme, jaké kroky je potřeba učinit, abychom měli více informací o výsledcích žáků a mohli na jejich základě navrhovat smysluplné změny ve vzdělávání.

Testování v Česku a v Evropě

Víte kolik žáků umí na konci první třídy číst nebo kolik žáků neovládá na konci základní školy běžné početní operace? My také ne. V Česku nefunguje plošné měření výsledků žáků a úrovně jejich dovedností. Používáme nástroje, které neověřují úroveň všech žáků:

Jednotnou přijímací zkoušku skládají jen žáci hlásící se na maturitní obor, to je jen přibližně 75 % deváťáků.
Testování Českou školní inspekcí neprobíhá každoročně; posledního testování v roce 2022 se zúčastnilo jen 53 tisíc deváťáků, tedy zhruba polovina ročníku.
Mezinárodní testování PISA v roce 2022 absolvovalo jen 10,6 tisíce žáků základních a středních škol ve věku 15–16 let.

V Evropě je v mnoha zemích běžným standardem sbírat data o úrovni vzdělání žáků, jak ukazuje tabulka s přehledem vybraných zemí a jejich nástrojů pro sledování výsledků:

Země	Název testu / systému	Ročník(y) základního vzdělávání
Anglie	KS1 SATs (Yr 2), Phonics Screening Check (Yr 1), Multiplication Tables Check (Yr 4), KS2 SATs (Yr 6)	1, 2, 4, 6
Skotsko	Scottish National Standardised Assessments (SNSA)	1, 4, 7
Itálie	INVALSI (prove nazionali)	2, 5
Francie	Évaluations nationales	všechny ročníky ZŠ
Švédsko	Nationella prov (nationella ämnesproven)	6, 9
Nizozemsko	Doorstroomtoets	8
Polsko	Egzamin ósmoklasisty	8
Norsko	Nasjonale prøver	5, 8, 9
Dánsko	Nationale prøver (přechodné, platné 2022–2027)	2., 4., 6., 8. třída (čtení + mat.); nový systém od 2026/27
Slovensko	Testovanie 9	9. třída
Maďarsko	Országos kompetenciamérés (OKM)	6. a 8. třída (příp. i 10.)
Portugalsko	ModA (nové testy) + Provas de aferição	4. a 6. třída

Výčet zemí, kde jsou schopni otestovat plošně všechny žáky, ukazuje, že ověřená řešení existují. Některé země se pustily do digitalizace (Dánsko, Švédsko), ve Francii nebo Polsku zatím zůstávají u papírové varianty. To ale nic nemění na tom, že se v Česku nelze vymlouvat na administrativní komplikace vzhledem k množství příkladů, kde systém funguje.

Jak nám škodí absence dat o výsledcích

Různé podoby testování a hodnocení jsou nedílnou součástí vzdělávací zkušenosti většiny žáků. Je proto s podivem, jak málo toho stát o výsledcích žáků ví. Učitelé své žáky hodnotí průběžně. Stát ale nesleduje výsledky žáků ani na základních, ani na středních školách. To omezuje všechny aktéry v hledání cest, na čem a jak pracovat. Například jak zlepšit výsledky dětí nebo jak omezit nerovnosti. Ukažme si to na pár příkladech, kde nás absence informací omezuje:

Nebudeme schopni měřit dopad velké revize rámcových vzdělávacích programů.
Nevyhodnocujeme, jaké vzdělávací přístupy učitelů fungují pro lepší výsledky či větší posun žáků ve vyučované látce, přestože učitelé pravidelně absolvují další vzdělávání, letní školy nebo společná sdílení.
Školy nemají bezplatně dostupný nástroj, jak sledovat pokrok vlastních žáků, který by si nemusely sami vyhodnocovat a analyzovat.
Stát neumí zjistit, které školy dokážou mezi 1. a 9. třídou nejvíce zlepšit žáky, a brát si z nich inspiraci.
Mluvíme o revizi inkluze, ale její dopady na výsledky žáků umíme sledovat jen v hrubých obrysech.

Robustní data o výsledcích žáků v čase jsou základem pro ověření nebo plánování reforem. Mluví se o obědech zdarma, omezení mobilních telefonů nebo odkladech. U žádné reformy nebo problému ale přesně nevidíme, jak se promítá do učení žáků. Kdyby se výsledky žáků pravidelně ověřovaly, tak se jednoduše vytvoří skupina škol, na kterých se výzkumně ověří, co s jejich výsledky konkrétní změny udělají.

Stát nedokáže vyhodnocovat naplňování strategických cílů

Česko chce naplnit cíle Strategie vzdělávací politiky do roku 2030+. Mezi ně patří: získávat kompetence pro občanský, profesní a osobní život a snižovat nerovnosti v přístupu ke kvalitnímu vzdělávání. Oba cíle se špatně naplňují, když nevíme, co konkrétně znamenají pro učitele, školy a zřizovatele. Jejich indikátory jsou přitom velmi obecné:

Strategický cíl 1: Zaměřit vzdělávání více na získávání kompetencí potřebných pro aktivní občanský, profesní a osobní život.

Indikátory:

Výsledky mezinárodních testů PISA, TIMSS, PIRLS s periodicitou sběru 3–5 let
Předčasné odchody ze ZŠ
Nepokračování žáků na SŠ

Strategický cíl 2: Snížit nerovnosti v přístupu ke kvalitnímu vzdělávání a umožnit maximální rozvoj potenciálu dětí, žáků a studentů.

Indikátory:

Vztah mezi chudobou a výsledky vzdělávání (na základě PISA)
Výsledkové rozdíly mezi školami (PISA)

Jediný zdroj informací o výsledcích žáků, na který se strategie spoléhá, jsou mezinárodní testování PISA, TIMSS a PIRLS. Ta ale pro takový účel nestačí, a to hned z několika důvodů. Pro ilustraci:

Data z PISA mají řadu omezení. Nemůžeme z nich proto snadno dělat závěry o kauzálních dopadech veřejných politik (L. Rutkowski & Rutkowski, 2016; Goldstein, 2017).
Pořadí zemí v těchto testech jsou překvapivě nestabilní. V závislosti na výběru úloh zahrnutých do výpočtu skórů se například Dánsko může umístit na 3. i na 33. místě (Kreiner & Christensen, 2014)
Ukazatel socioekonomického statusu ESCS je teoreticky i technicky problematický (D. Rutkowski & Rutkowski, 2013; Avvisati, 2020). V různých zemích může měřit různé věci a například pro postkomunistické státy, kde se může často rozcházet majetek a kulturní kapitál, nemusí být ideální
PISA systematicky nedostatečně pokrývá některé skupiny žáků, například žáky ve speciálních školách a žáky se závažnějšími vzdělávacími potřebami (LeRoy et al., 2019), a nemusí dostatečně sledovat menšiny, jako jsou romské nebo ukrajinské děti. To omezuje využitelnost podobných dat například pro hodnocení inkluze, naplňování rozsudku ČR vs. DH nebo začleňování ukrajinských uprchlíků.
PISA není neutrální měřicí nástroj. Ekonomická organizace OECD prosazuje specifické pojetí účelu vzdělávání, který se může rozcházet s cíli národní politiky (Grek, 2009; Sellar & Lingard, 2014; Broome et al., 2017).

Data o výsledcích vzdělávání hrají důležitou roli při pochopení jeho cílů. Pokud chceme, aby děti získávaly kompetence, je potřeba změřit, jestli se to děje. Obdobně je snižování nerovností dost široký pojem a bez pojmenování oblastí, u kterých budeme měřit zlepšení, těžko poznáme pokrok. Příkladem propojení cílů a měření pro dostatek informovanosti je Skotsko.

Ve Skotsku díky dostatku dat zlepšují výsledky žáků

Skotsko ověřuje výsledky pomocí SNSA (Scottish National Standardised Assessments). Jedná se o online standardizované testy v prvním, čtvrtém, sedmém a devátém ročníku ve čtenářských a matematických gramotnostech. SNSA byly zavedeny jako součást Národního rámce pro zlepšování skotského vzdělávání s cílem poskytnout učitelům objektivní a srovnatelné informace o pokroku žáků.

Testování slouží pro zisk dat k vyhodnocení Národního rámce, který od roku 2016 sleduje následující cíle:

zlepšení výsledků, zejména v čtenářské a matematické gramotnosti,
snížení rozdílů ve výsledcích mezi nejvíce a nejméně znevýhodněnými dětmi,
zlepšení zdraví a blahobytu dětí a mladých lidí,
zlepšení dovedností zvyšujících zaměstnatelnost a zajištění trvalého a pozitivního uplatnění všech mladých lidí po ukončení školní docházky.
snížení počtu odkladů povinné školní docházky

Každý rok si vláda stanoví, jakých nových cílů chce dosáhnout, a zároveň vyhodnotí ty minulé a určí, co lze dělat lépe. Bez výsledkových dat by postup nebyl možný. Příkladem stanovení a dosahování cílů je vládní iniciativa The Scottish Attainment Challenge.

Program The Scottish Attainment Challenge (SAC) si kladl za cíl snížit rozdíly ve výsledcích žáků související s chudobou (poverty-related attainment gap) (The Scottish Government, 2022).

“Jedna z lokálních autorit (obdoba okresu) si stanovila cíl zvýšit mezi lety 2020/2021 a 2022/2023 podíl žáků z nejchudšího kvintilu (spodních 20 %), kteří dosahují očekávané úrovně znalostí z matematiky pro svůj ročník, z 60 % na 66 %.“ Tento cíl se jim podařilo překonat o 1 p. b. Stalo se tak například pomocí programů Numeracy Champions, zapojením asistentů pedagoga nebo sdílením praxe mezi školami (The Scottish Government, 2022 s. 29). Bez měření výsledků by nebylo možné stanovit si cíle, sledovat pokrok a vyhodnocovat, že intervence fungují.

Obrázek: Data z testů například ukazují, jak se žákům sedmých tříd daří v matematice v průběhu let, včetně poklesu během pandemie covid-19

Různé účely testování – různé podoby testu

Ověřování výsledků žáků patří mezi základní pilíře každého vzdělávacího systému. Pro zjišťování výsledků se používají nejrůznější druhy testů: standardizované písemné zkoušky, ústní zkoušky, diagnostické procedury a jiné. Testy lze ve vzdělávání používat k řadě účelů. Některé mohou sloužit k národnímu monitorování, jiné k identifikaci zaostávajících škol, další k diagnostice nadaných žáků. K čemu test používáme, je ale zároveň určující pro to, jakou by měl mít podobu.

Testy mohou mít různé charakteristiky. Některé potřebují pokrýt široký záběr dovedností, jiné musí být vysoce přesné, u dalších je potřeba, aby šly aplikovat rychle a efektivně. Žádný test proto nemůže být kvalitní nebo nekvalitní sám o sobě. Musí odpovídat účelu, pro který se vytváří. V odborné literatuře se objevují nejrůznější účely testování: některé slouží žákům a rodičům, jiné učitelům či školám, některé zase zřizovatelům či státu (Black, 1997; Newton, 2007). Není vyloučené používat jeden test pro více účelů, ale potom je o to víc nutné tyto účely důkladně pojmenovat, aby se s nimi při vývoji a posuzování testů počítalo (Newton, 2012, 2017).

Při formulaci účelu testování si můžeme položit tři otázky (Newton, 2007):

jaké výroky chceme na základě testu moci udělat (“uchazeč pravděpodobně úspěšně dokončí vysokoškolské studium“, “škole se daří dosahovat cílů popsaných v národním kurikulu“, “reforma zvýšila národní úroveň čtenářské gramotnosti“)
jaký druh rozhodnutí nebo akci chceme na základě výsledku udělat (rozlišit mezi dvěma uchazeči, včas identifikovat žáky pro dodatečnou podporu)
jaký dopad má test mít na celý systém vzdělávání (zvýšit akontabilitu škol za dosažené výsledky, snížit nerovnosti ve vzdělávání podporou ohrožených žáků)

Na základě těchto otázek můžeme identifikovat mnoho různých účelů, pro které lze testování využít. Ty jsou více či méně relevantní pro aktéry ve vzdělávání na všech úrovních. Některé účely následujícím seznamu podle toho, na jaké aktéry primárně cílí:

Účely testování pro různé aktéry

Žáci a rodiče

Informační: žák má představu o tom, jak si aktuálně stojí oproti ostatním žákům nebo zbytku republiky.
Formativní hodnocení: žák ví, jak se mu daří a na čem potřebuje zapracovat, v čem se zlepšuje a v čem naopak stagnuje.
Výběr školy: informace relevantní pro rodiče a žáky při výběru školy.
Hodnocení: v některých systémech jsou standardizované testy součástí hodnocení žáků v průběhu roku, podobně jako u nás písemky a zkoušení.

Učitelé a další vzdělavatelé

Monitoring žáka: učitelé sledují, jak se jejich žákům daří v čase – kdo se zlepšuje, kdo se zhoršuje, kdo potřebuje podporu.
Přechod: při změně učitelů nebo škol lze rychle identifikovat historii, úroveň a potřeby žáka.
Zařazení: umístění v rámci školy, například základní nebo pokročilé skupiny ve výuce jazyků.
Diagnostika: expertní identifikace hlubších příčin vzdělávacích problémů a potřeb.
Poradenství: široký záběr na silné a slabé stránky a možnosti žáka.

Školy a jiné organizace

Kvalifikace: potvrzení, že absolvent disponuje znalostmi a dovednostmi očekávanými na výstupu.
Výběr: identifikace vhodných kandidátů pro studium, například v přijímacím řízení na střední nebo vysoké školy.
Licencování: formální certifikace pro výkon specifických činností (například výuční list v případě sekundárního vzdělávání).
Evaluace školní intervence: jak se projevila změna ve výuce nebo nábor asistentů v konkrétní škole na výsledcích žactva?

Stát a zřizovatelé

Monitoring instituce: jak fungují jednotlivé školy v čase?
Alokace zdrojů: které školy zahrnout do podpůrných programů (indexace)?
Organizační intervence: identifikace škol, které potřebují prioritní inspekční činnost.
Vyhodnocování změn na různých úrovních: na státní úrovni například inkluze, zrušení odkladů a financování znevýhodněných škol, na lokální úrovni pak zavádění Hejného metody či alternativních metod výuky čtení na vybraných školách.
Monitoring systému (krátkodobý, střednědobý i dlouhodobý)
Národní účetnictví (vztahování výdajů na vzdělávání k dosaženým dopadům).

Z těchto účelů pak vznikají specifické požadavky na testovací nástroj. Jednou z klíčových otázek například je, má-li být test srovnávací (norm-referenced), tedy porovnávající výsledky jednotlivce s ostatními, nebo ověřovací (criterion-referenced), tedy posuzující jednotlivce podle absolutního kritéria.

Test sloužící k zachycení žáků, kteří nedosahují základní čtenářské gramotnosti by měl být ověřovací. Nevadí, pokud v něm žádný žák nezíská nízký počet bodů (protože minimální úrovně gramotnosti dosáhli všichni žáci).

Zato přijímací test na vysoké školy je srovnávací. Fakultám tolik nezáleží na tom, který uchazeč splňuje minimální požadavky, jako na tom, který je na vyšší úrovni než ostatní uchazeči. Když v přijímacím testu dosáhne většina uchazečů stejného skóru (například je-li moc těžký nebo lehký), test neplní svůj účel.

Kromě dělení na srovnávací a ověřovací testy existuje celá řada technických vlastností, které testy mohou, nebo nemusí splňovat. Například v následujících oblastech:

Pokrytí testovaného obsahu

Čas a finanční prostředky určují, co všechno může test hodnotit. Z účelu testování mohou vyplývat i požadavky na to, co všechno má test pokrýt:

Význam detailu

Formativní hodnocení vyžaduje časté a specifické informace o malých dílčích oblastech, klidně s nižší přesností. Oproti tomu o výsledku přijímací zkoušky nemohou rozhodovat jednotlivé dovednosti, ale komplexní informace o obecnějších dovednostech, a to s vysokou přesností snižující šanci, že velký podíl uchazečů bude vybrán v důsledku statistické chyby spíše než skutečné dovednosti.

Záběr testu

Test ověřující minimální úroveň gramotnosti ve všech školách se může zaměřit jen na psaní a počítání. V rámci poradenství nebo certifikace je však potřeba zajistit informace o širokém spektru znalostí a dovedností.

Povaha testovaného obsahu

Pro vzdělávání jsou důležité různé druhy informací. Pro vyhodnocování toho, jak naplňujeme naplňování národního kurikulum musí být test sestaven podle stanovených cílů vzdělávání (RVP). Mezinárodní srovnání zase musí sledovat nějaké univerzální dovednosti umožňující srovnání mezi různými systémy. Oproti tomu evaluace typicky vyžadují měření velmi specifického konstruktu (například historické myšlení, IT gramotnost, well-being), který nelze zaměnit zdánlivě podobným obecným ukazatelem.Druh testovaných informací je významný i pro vedlejší dopady testů. Můžeme například navrhnout přijímací testy sledující obecné předpoklady ke studiu. Jenomže v důsledku takových testů se mohou školy zaměřit na rozvoj těchto předpokladů místo obsahu národního kurikula.

Spolehlivost a interpretace

Testy mohou být různě přesné. Například nástroj pro diagnózu dyslexie může odhalit mezi 76 a 91 procenty postižených dětí. Přijímací zkouška může správně seřadit uchazeče s nejvyšší úrovní dovednosti, ale dělat velké chyby u žáků na spodní straně spektra. Rozdíly v požadavcích na přesnost testu mohou zahrnovat následující parametry:

Míra přesnosti

Diagnostický test musí být vysoce přesný, protože slouží jako podklad nákladných opatření a jeho výsledek s sebou nese potenciál těžko korigovatelných dopadů na žáka a stigmatu. To platí i pro přijímací testy. Na druhou stranu rozřazovací testy (například ověřující, zda je žák začátečník/pokročilý v angličtině na začátku školního roku) nemusí plnit tak striktní standardy, protože rozhodnutí na jeho základě není těžké v čase korigovat.

Úroveň dovednosti, pro kterou má být test nejpřesnější

Testy, které sledují jednotlivce v čase, musí být podobně přesné na celém dovednostním spektru. Přijímací testy na vysoké školy by měly nejlépe rozlišovat mezi uchazeči v horní polovině rozdělení. Testy pro včasnou identifikaci zaostávajících žáků zase na hranici přijatelné úrovně dovednosti.

Schopnost rozlišit momentální výkyvy a dlouhodobé trendy

Pokud má údaj o škole sloužit rodičům a žákům při výběru školy nebo zřizovatelům a systému pro akontabilitu výsledků, měl by ukazovat dlouhodobou úroveň, nikoli jen momentální růst či pokles. Naproti tomu data pro alokaci speciální podpory mohou být více reaktivní a zachycovat i krátkodobé výkyvy. Platí také, že národní monitorování může hodnotit celkové výsledky systému bez ohledu na specifické podmínky (například že žák by měl dosáhnout alespoň základních gramotností bez ohledu na kontext), zatímco při posuzování škol je potřeba rozlišovat jakou roli ve výsledcích hraje kvalita školy a jakou podmínky, v nichž škola působí (např. socioekonomické podmínky žáků nebo podfinancování ze strany zřizovatele či státu).

Porovnatelnost výsledků

Není vždy samozřejmé, že dva stejné výsledky testu znamenají totéž. Známky od jednoho učitele mohou být mezi sebou srovnatelné a jednička bude odrážet lepší výkon než dvojka. Ale rozdílné hodnocení od dvou různě přísných osob už je těžké správně interpretovat. Podoba testu nebo způsob sběru dat mohou zásadně ovlivnit, jaká srovnání je možné na základě jejich výsledků provádět. . Specifické účely mohou od testů vyžadovat, aby byly prokazatelně porovnatelné například:

v čase (od maturitní zkoušky chceme, aby její složení ukazovalo stejnou minimální úroveň bez ohledu na rok, ve kterém byla složena),
mezi skupinami typu druh škol, obory vzdělání či regiony apod. (například výsledky v testech PISA jsou sbírány způsobem, který umožňuje především srovnání mezi státy, ale jsou omezené v porovnatelnosti na nižších úrovních),
mezi předměty (v rámci poradenství může být důležité posoudit, v jaké oblasti je žák silnější či slabší).

Přínosy kvalitní datové politiky

Co umíme říct o kvalitě vzdělávání úzce souvisí s tím, jak dobře sbíráme data o výsledcích žáků. Kvalitní test pro monitorování systému řekne, který žák dosáhl jen minimální čtenářské úrovně. Nekvalitní monitorovací test řekne nanejvýš, který žák je lepší než ostatní. Kvalitní přijímací test umí spolehlivě seřadit žáky. Nekvalitní přijímací test umístí stejného žáka jednou do padesátého, jindy do šedesátého percentilu. Kvalitní databáze výsledků řekne, kteří žáci dosahují nečekaně velkého pokroku navzdory podmínkám, ze kterých pocházejí. Špatná databáze nám řekne nanejvýš, v jaké škole mají žáci nízké výsledky. Na sérii ilustrací můžeme ukázat, co všechno bychom mohli o našem vzdělávání vědět, kdybychom krok za krokem zvyšovali kvalitu ověřování výsledků.

Jedno číslo nestačí: Proč o žácích vlastně nic nevíme

V současnosti toho o žácích dokážeme říct jen velmi málo. V grafu 1 má každý žák pouze jednu časovou hodnotu – možná výsledek testu JPZ, možná testování ČŠI. I kdybychom měli měření více, nedokážeme je propojit. Vidíme také, že uvedená hodnota je pouze percentil. Tušíme, že přibližně čtyřicet procent žáků v republice má horší výsledek než Tomáš a Martina je lepší než šedesát procent testovaných dětí. Ale nedokážeme posoudit, co to vlastně znamená. Jsou prostě všichni žáci tak skvělí a Tomášův výsledek vlastně není tak špatný? Nebo o Martině platí rčení, že “mezi slepými jednooká královna“?

V obrázku nenajdeme ani další informaci – nejistotu o skutečné dovednosti. Žádný test není dokonalý, ale některé testy nám o sobě alespoň dokáží říct, jak moc. Spolehlivost testu je přitom otázkou veřejného zájmu. České testy to v současnosti příliš dobře neumí.

Test s takovými vlastnostmi lze použít nanejvýš k seřazení žáků. Například v rámci přijímacího řízení. I tam ale pokulhává. Jak číst rozdíl například mezi 80. a 90. percentilem a jakou váhu by měl mít oproti profilové části přijímací zkoušky? Jak lze rodinám obhájit rozhodnutí na základě takového testu, jak po stránce obsahu, tak po stránce spolehlivosti?

Test v plném souladu s kurikulem

Když se zaměříme na kvalitu testů, informace o žácích jsou rázem komplexnější. Na grafu 2 už je informací mnohem více. Výsledky testu lze interpretovat podle plného kurikula. Můžeme se plně spolehnout, že test hodnotí to, co se snažíme učit. Také platí, že skóry mají absolutní interpretovatelnost. Dokážeme tak říct nejen to, že Martina je na tom lépe než Tomáš, ale také že Martina splňuje cíle kurikula nad očekávání, zatímco Tomáš potřebuje podporu, aby se přiblížil k požadované úrovni. Navíc jsme schopni posoudit u každého změřeného výkonu, jak je spolehlivý – u obou žáků není příliš pochyb o tom, v jakém pásmu se nacházejí.

Takovýto test může být efektivní nástroj pro monitorování systému. Snížila reforma podíl žáků pod kritickou úrovní dovednosti? Neroste nám v čase podíl žáků, kteří neumí číst?

Sledování pokroku v čase jako klíč k podpoře žáka

Když zavedeme systém identifikátorů, které umožňují sledovat žáka v čase, kvalita informací se násobně zlepší. Časová řada na grafu 3 ukazuje zásadní kontext příběhů Martiny a Tomáše. Nad výsledky sledovanými v čase může učitel posoudit nejen komu se daří, ale také kdo je nebo není na dobré cestě. A škola zase může posoudit třeba jestli se nedávné změny ve výuce projevily i ve výsledcích žáků, případně kterým prospěly a kterým ne.

Časová řada může být cennou informací pro školy a učitele. Jak se změnily výsledky žáků po změně výukové metody? Kteří žáci se zhoršují a potřebují dodatečnou pomoc?

Zohlednění dalších zdrojů dat

Na funkční databázi žáků bychom mohli napojit i další zdroje dat. Graf 4 ilustrujeme, jak by se takové propojení dalo využít. S informacemi jako je socioekonomický status žáků (school meals ve Spojeném království, příjem, vzdělání a majetek rodičů v Nizozemsku, údaje o sociálních dávkách…), můžeme statisticky odhadnout, jaký je očekávaný výkon žáků žijících v různých podmínkách. Například u Martiny by se ukázalo, že její výsledky jsou spíše v normě u dětí jako je ona. Naopak, Tomášovi se nakonec podařilo dosáhnout neočekávaně vysokých výsledků. Zajímá-li školy efektivita toho, jak se jí daří dosahovat vzdělávacích výsledků, není možné kontextová data vynechat.

Pouze s daty zahrnující časovou řadu a kontextové informace má smysl přemýšlet o vyhodnocování efektivity školy. Jaká je její přidaná hodnota v čase, vezmeme-li v potaz dovednostní úroveň a životní podmínky žáků, kteří do ní nastupují? Nejlepší školy v republice možná nejsou ty, z nichž odchází premianti, ale ty, které naučí solidně číst a psát i takové žáky, kteří by na jiných školách neměli šanci získat ani nejzákladnější gramotnosti.

Datová politika: krok za krokem

Zjišťování vzdělávacích výsledků není jednoduchý úkon. Pro národná testování nestačí jen od stolu sestavit písemku, od oka ji oznámkovat a výsledky zaznamenat do velké excelové tabulky. Testování vyžaduje řadu technických, legislativních, procesních a odborných kapacit. Bez nich se zásadně snižuje hodnota jakékoliv informace, kterou můžeme o žácích zjistit.

Příklad s Tomášem a Martinou ilustruje různé druhy překážek a omezení, kvůli kterým nemáme dostatek informací o našem vzdělávání. Ty pak zásadně omezují, jakou veřejnou politiku můžeme ve vzdělávání realizovat. Chceme-li rozšiřovat množství informací podobně jako v příkladu, musíme postupně rozšiřovat možnosti naší datové politiky. Základními předpoklady pro spolehlivý systém sledování výsledků, které ilustrujeme jsou:

Kvalita tvorby a hodnocení samotných testů, které pro zjišťování výsledků používáme.
Systém identifikátorů umožňuje sledovat průchod žáka vzděláváním, napojit ho na školy, které navštěvoval, na učitele, kteří ho učili, a zároveň zajistit spolehlivou kontrolu vstupních dat.
Integrovaná databáze výsledků, která umožňuje automatické napojení na další datové zdroje. To znamená provozovat efektivní systém spravování informací ve vzdělávání (van Wyk & Crouch, 2020).

Česko v tuto chvíli bohužel dostatečně nenaplňuje ani jeden předpoklad. Neumíme vyvíjet kvalitní testy, nemáme systém dlouhodobých identifikátorů, nedohlížíme systematicky na kvalitu dat a neumíme výsledková data propojovat s dalšími informačními zdroji.

Bez zajištění těchto technických podmínek nedokážeme sledovat výsledky vzdělávání. Bez informací o výsledcích vzdělávání pak máme omezené možnosti v tom, jaké reformy dokážeme realizovat. A to na všech úrovních – od systémového řízení celého vzdělávání až po zlepšování každodenní práce se žactvem na školách.

Krok první, vývoj kvalitních testů

Vývoj testu nebo dotazníku si můžeme představit jako výzkumnou činnost s cílem vytvořit datově podložený argument pro jeho interpretaci a využití (Kane, 2013). Jedná se o průběžný proces, v němž se postupně vyjasňuje účel testu a získávají nová data pro posouzení, do jaké míry test tento účel naplňuje a jak jej případně upravovat, aby dobře fungoval (American Educational Research Association et al., 2014). Tento průběžný proces se nevyplácí zanedbat. Špatně sestavený test, na základě kterého se například špatně identifikují potřeby žactva, může mít velmi nákladné negativní dopady. Podfinancování vývoje testů a měřících nástrojů proto mohou být falešné úspory (Newton & Shaw, 2014).

Aby se situace zlepšila, musíme postupně odstranit všechny bariéry. Práci na nich lze samozřejmě zahájit paralelně. Platí ale, že pozornost musíme v první řadě věnovat samotným testům. Systémy identifikátorů a integrované databáze jsou k ničemu, pokud v první řadě nemáme způsob, jak zjistit, co žáci umí.

Co všechno je ale potřeba pro to, aby kvalitní test vznikl? Je velký rozdíl mezi běžnou písemkou z probraného učiva, které známe z dob školní docházky, a kvalitním standardizovaným testem použitelným na celostátní úrovni. Je potřeba vyjasnit následující aspekty a parametry:

Účel

Je mnoho účelů, pro které se dá vyvíjet test. Některé jsou vzájemně slučitelné, některé ale ne (Newton, 2007, 2012, 2017). Stejně tak platí, že rozřazovací test pro přijímací zkoušku nemusí být dobrý v diagnostice. Zadavatel proto musí jasně pojmenovat, k čemu má podle něj test primárně sloužit. Větší jednoznačnost ve vyjasnění účelu testů doporučuje České republice i OECD (Santiago et al., 2012).

Zadání musí být opravdu konkrétní. I testy s podobným účelem – monitorování toho, jak se daří naplňovat kurikulum – se mohou lišit například tím, jestli sledují spíše rozdíly mezi více oblastmi kurikula, nebo rozdíly mezi regiony či školami ve vybraných předmětech. To má pak implikace pro to, jestli se prioritizuje rozsah testovaných předmětů nebo pokrytí škol a žáků podobnými testy (rozdíl mezi NAEP a NEMP/NMSSA).

Zadavatel proto musí být schopen jasně pojmenovat alespoň následující:

Kdo bude výsledky testu používat? Budou to učitelé prostřednictvím žákovských reportů? Ředitelé prostřednictvím datových platforem ČŠI? Náměstci na MŠMT v podobě analytických podkladů?
K čemu se bude test používat? Má sloužit k včasnému screeningu ohrožených žáků? Jako kvalifikační certifikát na závěr studia? Nebo podrobná informace o stavu celé vzdělávací soustavy?
Kdo je cílová populace? Všichni žáci základních škol (a počítá se s věkovými rozdíly?), všechno žactvo v pátých třídách (a počítá se s etnickými a jazykovými skupinami?), žactvo při nástupu do základních škol, nebo studenti při odchodu ze středních škol?
Co má být doména sledovaná testem nebo konstrukt, který test měří? Je to naplnění kurikula? A jakých předmětů? Má se měřit inteligence nebo nějaká obecná dovednost? Chudoba? Jazykové znevýhodnění?
Jaké má mít test dopady? Co je z hlediska zadavatele klíčový dopad (například rozřazení uchazečů o studium do oborů tak, že se minimalizuje jejich nedokončování)? Co může být pozitivní sekundární dopad (uchazeči a učitelé mají relativní srovnání se zbytkem republiky)? Jaké negativní vedlejší dopady lze očekávat (školy začnou učit na test, test povede k segregaci podle socioekonomického statusu).

Obsah

Klíčovou otázkou při návrhu testu je, co má být měřeno a jaké povahy je znalost či dovednost v dané oblasti. Je třeba explicitně rozhodnout, zda test cílí na schopnost řešit problémy, porozumění konceptům, aplikaci poznatků, nebo spíše na reprodukci faktických znalostí. Stejně tak je nutné vyjasnit, jaký vztah má mít test k různým složkám vzdělávacích výsledků – znalostem, dovednostem, postojům a dalším kognitivním či nekognitivním aspektům učení (například kreativita, metakognice, zájem o předmět, víra ve vlastní schopnosti).

V oblasti testování vzdělávacích výsledků je toto vymezení zpravidla podřízeno požadavku souladu s kurikulem. Pokud test konzistentně odráží kurikulární cíle a koncepty, nevystavuje učitele nežádoucímu dilematu, zda vyučovat v souladu se vzdělávacími cíli, nebo žáky chystat na test (Black, 1997; Stobart, 2008). Výsledky takového testu jsou pak smysluplné a relevantní pro aktéry, kteří využívají informace o dosažených vzdělávacích výsledcích na úrovni žáků, škol i vzdělávací soustavy. Je proto klíčové, aby test odpovídal národním vzdělávacím cílům (American Educational Research Association et al., 2014).

Kurikulum samo o sobě nemusí být snadno testovatelné. Je proto třeba důkladně vydefinovat, jaké jsou vyhodnocované cíle vzdělávání a jak mají vypadat důkazy o jejich dosažení. Existují proto celé dokumenty popisující povahu vzdělávacích cílů ve vztahu k testování – tzv. standards (Isaacs, 2013).

V Anglii je „příručka“ pro tvorbu testů založená na kurikulu

Anglie má testy úzce provázány s kurikulem. Kurikulum od začátku vznikalo za podmínek, že půjde sledovat pokrok žáků v čase, informovat o výsledcích žáků rodiče, srovnávat výsledky škol mezi sebou (nejde o žebříček výkonu, ale například srovnání škol se stejným/různým sociálním znevýhodněním) nebo sledovat výsledky žáků na národní úrovni.

Provázání testů s kurikulem umožňuje stejná struktura kurikula a rámce pro tvorbu testů. Ukažme si to na příkladu matematiky:

V šestém ročníku (konec stupně Key Stage 2) je v kurikulu (DfE, 2013, s. 136) oblast Čísla – zlomky a v ní je uvedeno, že by žák měl umět například:

ve stejném jmenovateli porovnávat a řadit zlomky, včetně zlomků > 1
násobit jednoduché páry řádných zlomků a zapisovat výsledek v nejjednodušší podobě, například: 1412=18
dělit správné zlomky celými čísly, například 132=16

Rámec pro tvorbu testů z matematiky (DfE, 2016, s. 18) v oblasti Čísla – zlomky u šestého ročníku obsahuje stejná zadání.

V rámci pro tvorbu testů jsou popsány typy úloh, formát testových sešitů, pravidla pro sestavení a skórování testu a tzv. výkonnostní popis (performance descriptor), který definuje hranici či standard úspěšnosti.

Podoba úloh

Každý test se skládá z jednotlivých položek – otevřených či uzavřených úloh, dotazníkových škál nebo třeba zadání pro slohové úkoly. Tyto položky a zadání nelze nahodile sestavit a bez ověření použít v ostré administraci.

Jejich tvorba by měla vycházet ze systematické spolupráce obsahových expertů a z explicitně definované obsahové domény. Každá položka musí mít jasné zdůvodnění a celkový soubor položek musí být pečlivě navržen tak, aby přiměřeně pokrýval testovanou oblast.

Následně je nezbytná pilotáž položek na relevantní populaci. Ta umožňuje včas identifikovat problematické formulace či nečekané interpretační potíže. Vynechávají žáci systematicky některé úlohy? Rozlišuje úloha dostatečně dobře mezi silnějšími a slabšími žáky?

Pilotáže mohou zahrnovat jak kvalitativní metody, například think-aloud rozhovory (Black, 1997; Reinhart et al., 2022), tak kvantitativní metody psychometrické analýzy (Baird & Black, 2013; Yu, 2020). Teprve na jejich základě lze kvalifikovaně posuzovat kvalitu jednotlivých položek i jejich fungování v rámci celého testu.

Pilotáže umožňují také posoudit a kalibrovat test jako celek. Slouží například k zajištění meziroční porovnatelnosti testů a předvídání jejich obtížnosti. Pro zajištění porovnatelnosti totiž nestačí poskládat z vybraných úloh dva testy a od oka expertně posoudit, jestli se zdají být podobně náročné. Vyrovnávání obtížnosti různých variant testů (tzv. test equating, Andrich & Marais, 2019) je složitá procedura, vyžadující například “kotvící úlohy“, tj. úlohy, které skládají žáci napříč ročníky. S jejich využitím se pak statisticky posuzuje obtížnost dalších úloh v testu a způsob výpočtu celkového skóru.

Skórování úloh

Aby byly výsledky testu srovnatelné, je nutné přesně definovat způsob administrace a skórování úloh (American Educational Research Association et al., 2014). To zahrnuje mimo jiné otázky času který mají žáci na řešení, podmínek testování a způsobu hodnocení.

Například: Kolik času je potřeba, aby test měřil dovednost, a nikoli odolnost vůči stresu (obecněji jde o téma tzv. construct-irrelevant variance, Lu & Sireci, 2007; Stobart, 2008)? Dosahují různí hodnotitelé shody při hodnocení otevřených úloh (Santiago et al., 2012)? Ovlivňuje výsledek forma administrace testu (papír, počítač, tablet)? Lze dotazník na socioekonomický status spolehlivě vyplnit samostatně, nebo pouze formou strukturovaného rozhovoru?

Na všechny tyto otázky je třeba odpovídat argumenty podloženými empirickými důkazy.

Anglie: Každý rok se ověřuje, jestli test odpovídá standardům

Testy jsou vyhodnocovány pomocí škály přepočteného skóre (scaled scores) od 80 do 120. Hodnota 100 je definována jako hranice pro splnění očekávaného standardu (splnění požadavků kurikula). Tato hranice byla stanovena prvním rokem (2016) pomocí odborného posouzení panelem učitelů, jenž porovnal výkony žáků s výkonnostním popisem v testovém rámci (co má umět žák právě na úrovni standardu) a určil, jaký hrubý počet bodů tomu odpovídá (STA, 2015, s. 37). Obtížnost testu se každý rok ověřuje.

Detailní popis tvorby testů (pokusné ověřování úloh, pre-test apod.) obsahuje příručka na webu ministerstva v kapitolách Standards maintenance a Test development.

Změny modelujeme pomocí TAXBEN modelu na mikrodatech SILC, která reprezentují celou společnost. Pro účely prezentace dopadu jsme zahrnuli pouze domácnosti, ve kterých alespoň jeden člen má roční hrubý příjem ze zaměstnání větší než 9 450 Kč (polovina minimální mzdy). Naše modelace tak nezahrnuje důchodcovské domácnosti a domácnosti bez příjmů. Pro rozdělení domácností dle příjmu jsme použili hrubý příjem na jednoho člena domácnosti (spotřební jednotku).

Skórování testu

Dalším krokem je rozhodnutí, jakým způsobem budou odpovědi agregovány do výsledného skóru. Neuvážené sčítání bodů za různě obtížné úlohy může vést ke ztrátě informace a zkreslení výsledků (Baird & Black, 2013; Andrich & Marais, 2019).

Komplexnější metody získávání informací nejsou bez pokročilejších testovacích metod ani možné. Díky pokročilým statistickým metodám je například možné snížit celkový počet úloh které musí každý žák vyřešit. Techniky počítačového adaptivního testování (computerized adaptive testing, CAT) přizpůsobují výběr předkládaných úloh úrovni žáka. Žáci na vysoké úrovni tak nemusí skládat příliš jednoduché úlohy, žáci na nízké se nemusí trápit s příliš těžkými, které by stejně pravděpodobně úspěšně nevyřešili. Jiné techniky jako Incomplete Multiple-Matrix Sampling (IMMS) v testech PISA umožňují rozdělit dlouhý test se širokým záběrem do kratších celků. Jednotliví žáci řeší kratší celky. Jejich výsledky je následně možné shrnout do porovnatelných skórů, jako by všichni skládali jeden velký test.

Statistické výpočty skórů také umožňují vytvářet srovnatelné testové skóry bez toho, aby se každý rok musely složitě hledat úlohy s identickou obtížností jako v minulých letech. Na základě těchto výpočtů lze skóry z různě obtížných testů převést na jednotnou škálu, což jde u součtů bodových skórů jen těžko.

Je nutné promyslet jak bodování jednotlivých položek, tak otázku, zda a proč má smysl je spojovat do jednoho či více skóre (Kane, 2013). V praxi se využívají pokročilé psychometrické metody, které umožňují posoudit, zda je zvolený způsob skórování obhajitelný. Ani relativně jednoduché skóre, jako je podíl správných odpovědí, by nemělo být použito bez předchozí analýzy.

Zároveň je třeba zodpovědět otázky, jako má-li skóre odkazovat k absolutnímu standardu, nebo pouze vyjadřovat relativní pozici žáka v populaci (Baird, 2007; Isaacs, 2013). Kvalitní skórování je předpokladem nejen přesnosti měření, ale i dlouhodobé porovnatelnosti výsledků mezi roky či verzemi testu (Andrich & Marais, 2019).

Validace a dokumentace

Závěrečnou fází je shrnutí a obhajoba všech shromážděných argumentů. Na jejich základě musí nezávislé odborné komise a experti na testovaný obsah posoudit test jako celek. Test musí být posouzen ve vztahu ke svému zamýšlenému účelu a k reálným důsledkům jeho používání. Jak často přijímací test vylučuje uchazeče, kteří by mohli uspět? Jak často jazykový rozřazovací test chybně zařazuje pokročilé mluvčí mezi začátečníky?

Kvalitní dokumentace je jako příbalový leták testu. Lidé by neměli brát léky pokud se neví nic o jejich účincích a rizicích. Totéž platí i o testech (American Educational Research Association et al., 2014). Autoři testu nesou odpovědnost za důkladnou a transparentní dokumentaci jejich povahy, vývojového procesu, procedur administrace a skórování, stejně jako za předložení důkazů o validitě, spolehlivosti a férovosti. Bez této dokumentace nelze test považovat za odborně ani eticky obhajitelný (Kane, 2013).

Ukázka jednotivých kroků na vývoji testů v Anglii

Účel

Nezávislý expertní přehled objednaný britským ministerstvem školství sestavený na základě veřejných konzultací a odborných podkladů hodnotí fungování státních testů a specifikuje účely Key Stage 2 testů. Jako primární účely testu stanovuje:

akontabilitu škol ve výsledcích a postupu žactva i specifických skupin žactva,
informání rodičů a středních škol o výkonech jednotlivých žák,
umožnit porovnávání podobných škol pro potřeby evaluace a monitorování na školní, regionální i národní úrovni.

Vedle nich pak vyjmenovává sekundární využití testu pro školy (hodnotit výsledky žáků oproti očekávaným hodnotám, identifikace a podpora zaostávajících žáků), rodiče (pomoci s výběrem ideální školy) a vládu (monitorování škol vzhledem k národním očekáváním, ideální alokace zdrojů, podpora při identifikování potřeby a podoby lokálních intervencí, podpora evaluací konkrétních intervencí a iniciativ, informace pro budoucí nastavování kurikulárních standardů).

Obsah

Obsah testu vychází z rámce pro vývoj testů. Ten jasně uvádí, že jde o technický popis pro tvorbu testů, který by v žádném smyslu neměl ovlivňovat, jak se ve školách učí.

Rámec pro každou oblast určuje, co test má a nemá hodnotit, jakým způsobem bude každý prvek hodnocen, strukturu testu a standardy, které budou od žáků očekávané.

Každý rámec vymezuje obsahovou doménu (co se bude zkoušet), kognitivní doménu (vyjasnění požadavků a typů dovedností nutných při řešení problémů), specifikaci testu zahrnující formát testu, druh testových položek, způsob hodnocení a váhy jednotlivých obsahových a kognitivních domén. Vysvětluje také slovní popisy výkonových úrovní pro jednotlivé domény a jak mají být výsledky komunikovány.

Podoba úloh

Testové úlohy procházejí několikakolovým procesem posuzování, který se silně opírá o kvalitativní i kvantitativní data o tom, jak úlohy fungují, když jsou předložené žákům.

Pilotní úlohy jsou ověřeny na vzorku přibližně 1000 žáků. Hodnotí se věci jako obtížnost úloh, uvěřitelnost distraktorů (špatných odpovědí v nabídce pro úlohy s možnostmi a,b,c,d…) nebo nezamýšlené interpretace zadání. Meziroční kotvící položky zajišťují srovnatelnost výsledků mezi roky. Kvalitativní analýza probíhá v expertních panelech – učitelském, technickém a v panelu zajišťujícím rovné podmínky pro znevýhodněné žáky. Tyto panely posuzují vztah testu k reálné výuce, technickou správnost testu, přiměřenou obtížnost a přístupnost pro žáky se speciálními potřebami či s angličtinou jako sekundárním jazykem. Po každém kole hodnocení se na posuzovacích schůzkách kombinují kvantitativní data z pilotáží a doporučení panelů k úpravě nebo vyřazení položek, čímž se zvyšuje validita a spolehlivost finálního testu.

Administrace a skórování položek

Způsob kódování odpovědí a vyhodnocování testů je technicky rigorózní.

Spolehlivost bodování položek, která je nezbytným předpokladem smysluplného souhrnného skóru, je zajišťována systematickým tréninkem hodnotitelů. Tréninkové materiály vycházejí z autentických žákovských odpovědí z technického pretestu a jsou vytvářeny ve spolupráci odborníků na kurikulum, psychometriků a vedoucích hodnotitelských týmů, aby se minimalizovala variabilita v přidělování bodů.

Při analýzách testů se používají techniky klasické i moderní testové teorie (CTT a IRT). Tyto analýzy zahrnují mimo jiné i rozbor odlišného fungování položek (differential item functioning, DIF). Jedná se o statistickou metodu, která vyhodnocuje, zda test funguje stejně pro všechny skupiny žáků. Vylučují se tak například položky, které systematicky jdou lépe jen některým skupinám – například oproti ostatním úlohám ukazují velké rozdíly mezi chlapci a dívkami.

Skórování testu a vytváření škál

Souhrnné skóre testu je výsledkem psychometricky řízené konstrukce testu, která využívá metadata položek k optimalizaci přesnosti měření v relevantní části schopnostní škály. Psychometrici nejprve sestaví návrh testu splňující specifikaci a následně je výběr položek diskutován na konstrukčním jednání, kde se empiricky zvažuje typ položek, pokrytí obsahu, prezentační aspekty a konzistence měřených konstruktů.

Nastavení výkonových standardů, podle nichž je interpretováno souhrnné skóre , je založeno na datech z ostrého testování více než půl milionu žáků. Pro stanovení standardů se používá model teorie odpovědi na položku neboli Item Response Theory (IRT) se dvěma parametry. Tento statistický model umožňuje seřadit položky podle obtížnosti na základě pravděpodobnosti, s jakou je žáci zodpoví správně, a následně jim přiřadit odpovídající bodovou úroveň. Panelisté tak pracují s empiricky odvozeným uspořádáním položek, což propojuje výsledné skóry s měřitelnou úrovní zvládnutí učiva.

Validace a dokumentace

Důkladná dokumentace v systému STA neslouží pouze jako závěrečné shrnutí, ale je i průběžným nástrojem řízení kvality napříč celým procesem vývoje testu. Na každé úrovni rozhodování jsou systematicky posuzovány empirické podklady, odborná stanoviska a pokrytí testového zadání, přičemž schválení posunu do další fáze je vždy podmíněno doloženými důkazy. Dokumentace tak funguje jako formální opora rozhodnutí o pilotáži i ostré administraci.

Každé projektové jednání pracuje s kumulativním souborem důkazů: přehledem dosavadního postupu, výstupy expertních hodnocení, vazbou položek na testový rámec a strukturou položkové banky. Zvláštní důraz je kladen na to, aby souhrn položek v pilotážích a položkové bance umožňoval sestavit test plně odpovídající specifikaci, a aby žádná klíčová oblast kurikula nebyla opomenuta.

Vrcholným bodem je třetí projektové jednání, které explicitně hodnotí validitu testu prostřednictvím předem definovaných tvrzení: reprezentativnost vzhledem ke kurikulu, férovost a přesnost měření, srovnatelnost výsledků mezi školami i v čase a srozumitelnost významu skóru pro uživatele. Je důležité pochopit, že validace není jen série rigidních strojových procedur, jejichž cílem je naplnění několika předepsaných statistických ukazatelů. Validita je zde chápána jako kumulativní argument založený na průběžně shromažďovaných důkazech, nikoli jako dodatečná kontrola hotového testu.

Krok druhý a třetí, digitální infrastruktura

Česká republika je v zemích OECD unikát. Identifikátory existují jen na úrovni škol a školských zařízení. Nemáme registr učitelů a žáků. Ve srovnání 29 vyspělých států vycházíme jako jedna ze tří zemí, jejichž datové systémy ve vzdělávání neměly ani jednu z následujících charakteristik:

používají národní žákovský informační systém nebo registr,
mají unikátní longitudinální identifikátor,
sbírají informace v reálném čase,
umožňují propojení dat o žácích a jejich učitelích,
obsahují výsledky standardizovaných testů,
obsahují nestandardizované známky od učitelů,
nabízí analytický přehledový interface,
nabízí veřejný přehledový interface.

Nemáme registr žáků

Informace o žácích sbírá každá škola separátně ve vlastní matrice. Stát dostává pouze exporty z těchto matrik – například jednou na podzim a jednou na jaře ze základních škol. Nemá tak kontrolu nad vkládáním údajů do systému a je závislý na dodatečném propojování tisíců školních databází. Vzniká tak zvláštní paradox. Na jedné straně věnujeme velké úsilí a spoustu času exportování a zasílání dat. Na druhé nemáme k dispozici informace, které by nám poskytovala relevantní integrovaná databáze.

Pro identifikaci žáků používáme rodná čísla

To je vysoce citlivý osobní údaj, kvůli čemuž jsou legislativně i prakticky omezeny možnosti propojení dat i způsoby jejich předávání. Dokonce i mezi ministerstvy nebo v rámci samotného ministerstva školství.

Informace se do systému dostávají jen jednou za čas v zasílaných exportech

U těch zabírá nějaký čas kontrola a zpracování. Pokud by vůbec probíhalo napojování nových dat (například výsledky JPZ) na stávající záznamy, muselo by proběhnout manuálně. Vyžadovalo by dedikovaný čas pracovníků odboru statistiky a šlo by o vysoce specifický jednorázový úkon bez systémového řešení.

Registr učitelů neexistuje

Fakticky tak ani nejsou data o učitelích, na která by se žákovská data napojovala. Identifikátor v podobě rodného čísla, nesystematická legislativa, absence metodik a konzervativní výklad ministerskými právníky znemožňuje kombinovat vzdělávací data i s dalšími informacemi z existujících databází. Mezi ta patří příjmy rodičů nebo sociální podpora dětí. V EU i proto patříme mezi pár států, ve kterých neexistují žádné longitudinální databáze ve vzdělávání.

Výsledky žáků systematicky nesbíráme ani nepropojujeme s centrální databází

Data z matrik neobsahují ani výsledky standardizovaných testů, ani známky, které žáci dostávají ve škole. Srovnatelně velké státy, jako jsou Dánsko, Slovinsko nebo pobaltské státy, zahrnují výsledky standardizovaného testování jako součást informačních systémů ve vzdělávání.

Pro školy, stát ani pro veřejnost tak nejsou dostupné ani detailní analytické přehledy. ČŠI provozuje portál InspIS, ale ten obsahuje především informace z inspekční činnosti a data vzniklá vlastní iniciativou jednotlivých škol. MŠMT zprovoznilo prohlížečku agregátních dat z výkaznictví, ta však bez efektivní databáze stále ukazuje především triviální informace, jako jsou celkové počty žáků a učitelů na školách.

A dá se to vůbec?

Naše datová politika nesplňuje ani nejzákladnější podmínky pro moderní řízení. Způsoby, jak datovou politiku ve vzdělávání zvládnout přitom existují. Například v Nizozemsku není možnost longitudinální analýzy předmětem specifického výzkumného projektu, ale běžnou vlastností systému. Nizozemská administrativní data umožňují propojovat informace z různých registrů. U jednotlivých žáků lze sledovat jak jejich průchod vzdělávací soustavou od mateřské až po vysokou školu, tak jejich vzdělávací výsledky i údaje z dalších registrů, například o příjmu rodičů či sociální podpoře (Haelermans et al., 2020).

Informační systémy ve vzdělávání

Pro datovou infrastrukturu ve vzdělávání se používá označení EMIS (Educational Management Information System). Označení EMIS se nevztahuje jen k technické specifikaci serverů a digitálních databází. Jde o síť technických nástrojů, lidí a institucí, která zajišťuje obousměrný tok informací mezi centrem a jednotlivými uživateli tak, aby byly užitečné jak pro stát, tak pro školy, ředitele, učitele, rodiče i žáky..

Pokud chce česká republika vytvořit vlastní EMIS, nemusí vynalézat kolo. UNESCO vytvořilo dokument se standardy pro kvalitní EMIS, který nabízí rozvojovým zemím kvalitní rámec pro tvorbu informační struktury ve vzdělávání. Tento dokument (a další materiály organizací jako Světová banka nebo Rada Evropy) může být cenným zdrojem inspirací pro základní rozvoj naší digitální infrastruktury ve vzdělávání. Témata, která se napříč dokumenty objevují, zahrnují:

Longitudinalita a persistentní ID: Při vstupu do systému dostávají žáci identifikátor, který je provází při průchodu celou soustavou. Snižuje duplikace, chyby v propojování a řeší administrativně právní omezení.
Rozsáhlá datová integrace: Propojení dat všemi úrovněmi vzdělávání (od školek až po univerzity). Je-li to možné, napojit další registry (daňové, sociálních dávek, zaměstnanecké) pro zachycení rodinné situace. Integrace může zachovat anonymitu a přitom umožnit komplexní analýzu podmínek vzdělávání. Klíčové je udržet základním technické standardy napříč institucemi (e.g. ISO/EDIFACT, API).
Vysoká kvalita dat: Standardy kvality, validační rutiny a zpětnovazební mechanismy kontroly. To zahrnuje i kvalifikaci a podporu uživatelů při zadávání dat.
Bezpečný a odstupňovaný přístup: Dobré nastavení toho, kdo a za jakých podmínek se smí dostat k jakým datům. Zabezpečení citlivých dat při skladování i přenosu. Záznamy všech přístupů pro audit. Možnost výzkumníků získat přístup k deidentifikovaným datům při dodržení jasných a transparentních postupů. Možnosti různé technologie anonymizace, které maximalizují množství informací poskytovaných různým druhům uživatelů.
Uživatelský interface: Databáze musí být připravena dodávat na vyžádání informace do různých platforem. Každá platforma musí být vyvinutá specificky k potřebám konkrétní uživatelů (rodiče, učitelé, zřizovatelé, úředníci…) a využití (monitoring organizace, výběr škol, podpora žáků…), pro které je určena.
Správa a udržitelnost: Dlouhodobé financování a technická podpora, zahrnutí stakeholderstva do vývoje – například pracovní skupiny sestávající ze vzdělávatelů, statistiků a expertů na IT. Jasně stanovené role a zodpovědnosti. Systém musí odpovídat vzdělávacím reformám.
Otevřená data a transparentnost: Agregovaná nebo anonymizovaná data by se měla publikovat, kdykoliv je to možné a vhodné. Veřejná data o financování, personálním zabezpečení a výsledcích vzdělávání mohou zvyšovat transparentnost, důvěru a zapojení veřejnosti. Tyto požadavky je potřeba vyvážit s potřebou zajistit anonymitu apředejít problematickému užívání (např. tvorbě žebříčků škol).
Etické užívání dat: Vytvořit postupy a normy, které předcházejí nevhodnému užívání dat (například nepoužívat data z EMIS pro trestání zaostávajících škol bez zohlednění jejich podmínek, nevyužívat data o vzdělávání dětí s cizím státním občanstvím pro vymáhání imigračního práva atp.). V některých kontextech to může znamenat i pověření osoby zodpovědné za dodržování datových norem v organizaci nebo vzdělávání učitelů v základních principech etického využívání dat a informační bezpečnosti.
Mezinárodní standardy a spolupráce: Je vhodné inspirovat se dobrou praxí v zahraničí a budovat architekturu systému tak, aby byla kompatibilní se systémy mezinárodních organizací, jejichž jsme součástí (EU, OECD).

Odpovědnost za tvorbu testů

Jsou různé modely toho, jak vývoj testů funguje. Některé státy používají kombinaci soukromého a veřejného sektoru, jiné čistě státní. V Anglii funguje státní agentura, která část tvorby deleguje na soukromé aktéry, ale testy jako celek vytváří a garantuje stát. V Nizozemsku je několik tvůrců a poskytovatelů testů. Stát vytváří detailní a striktní standardy. Systémy s větší decentralizací vývoje testů fungují jen tehdy, pokud národní instituce dokážou formulovat silné zadání, posuzovat kvalitu jeho naplňování a fungovat jako silný regulátor.

Kdo by měl za testy zodpovídat v Česku

Budoucnost zjišťování výsledků v Česku musí zajistit státní instituce, která bude vyvíjet testy na míru naší vzdělávací politice. V ideálním případě by šlo o jednu centrální organizaci, která zodpovídá za vývoj všech klíčových testů ve vzdělávání a může fungovat i jako autorita při posuzování jiných testů, diagnostických nástrojů a dalších otázek spojených s testováním.

V Česku se testování věnují veřejní i soukromí aktéři. Na straně státu se testování věnují CZVV a ČŠI. V privátním sektoru to jsou firmy jako SCIO, Kalibro nebo například Včelka. Zároveň se prostřednictvím ČŠI účastníme mezinárodních šetření, jako jsou PISA nebo TIMSS, na která se v otázkách cílů veřejné politiky často odvoláváme. Z toho vyplývají tři otázky:

Můžeme si vystačit s mezinárodním testováním?
Měl by za testování odpovídat soukromý nebo veřejný sektor?
Měla by se testování věnovat jedna nebo více organizací?

Spoléhání na mezinárodní testování vede jen k tomu, že dlouhodobě nemáme data v takovém rozlišení a podobě, jaké bychom potřebovali. Musíme se také přizpůsobovat sledovaným cílům které stanovuje OECD, namísto testování výsledků vlastního kurikula. Je proto potřeba rozhlížet se doma.

Dilema mezi státním a soukromým poskytovatelem testů je falešné. Při zajištění vývoje a distribuce testů soukromým poskytovatelem by stát potřeboval instituci typu anglické Ofqual nebo nizozemské CvTE, která by stanovovala standardy vývoje testů a dohlížela na jejich dodržování. Česko je země s dlouhodobě nízkým počtem expertů a pracovišť schopných odborně se věnovat vývoji testů. Anglický model pro nás proto není optimální. Stát by si totiž musel objednat konkrétní test a zároveňdohlížet na jeho kvalitu. To by stálo nejen více peněz, ale také vedlo k dilematům, kdo z nemnoha expertů by měl test vyvíjet a kdo dohlížet na kvalitu.

Stejný argument platí také pro variantu, že vývoj a administrace testů bude plně v gesci státu. Jedna organizace, která by testy vyvíjela a regulovala soukromé aktéry, se nemůže přetahovat s jinou o relevantní zdroje. Bylo by proto žádoucí zajistit, aby testy spadaly výhradně do gesce ČŠI nebo CZVV. Obavy z této koncentrace informací v jedné organizaci by měla odstranit legislativa, která umožní užší spolupráci – mimo jiné prostřednictvím dobře pojmenovaných standardů vývoje testů a snadného sdílení dat mezi státními institucemi. Zároveň je ale potřeba nezávislá kontrola mimo určenou organizaci (vysoké školy, komise učitelů základních škol).

Doporučení pro Česko

Chceme-li dosáhnout skutečné změny, máme před sebou řadu úkolů. Mezi ty největší patří:

Tvorba testů

Pojmenovat, jaký druh informací potřebujeme a jakým způsobem je budeme používat. Tyto potřeby je nutné pojmenovat přinejmenším v oblastech:
1. efektivního řízení státu,
2. regionálního řízení a cílené podpory škol,
3. informací na úrovni žáků pro potřeby systému, výuky i žáků samotných.
Provázat cíle datové politiky s vyhodnotitelnými ukazateli. Vytvořit tak poptávku po informacích o vzdělávacích výsledcích a zároveň budovat kulturu řízení, která se o data opírá

Vývoj testů

Rozvíjet odborné kapacity:
1. abychom mohli vyvíjet kvalitní testy, potřebujeme experty na jejich vývoj a kontakt s dobrou praxí a inovacemi ve světě,
2. dlouhodobě to znamená podporu společenskovědních oborů a kvantitativního výzkumu v pedagogice a psychologii,
3. česko by také mělo mít zastoupení v mezinárodních odborných organizacích jako je Assessment board of EFPA nebo ITC,
4. bylo by také žádoucí propojit organizace vyvíjející testy s akademickým výzkumem. Nemělo by být výjimkou, že experti vyvíjející testy rovněž publikují v uznávaných recenzovaných vědeckých časopisech.
Zajistit testovatelnost kurikula vývojem kvalitních a hlubokých standardů výkonu žáků
Stanovit standardy pro postup tvorby a validace testů
Zlepšit vývoj testů specializací a institucionálním zajištěním
Určit odpovědnost za naplňování těchto standardů

Databáze

Identifikovat datové potřeby aktérů ve vzdělávání jak z hlediska toho, co potřebují vědět, tak z hlediska toho, s jakou podobou informací dokáží pracovat
Zajistit datovou infrastrukturu, především identifikátor žáka a kvalitní EMIS pro ČR, alespoň na úrovni, kterou UNESCO doporučuje rozvojovými zemím
Prostřednictvím DIA a MMR koordinovat rozvoj datové politiky ve školství s národní politikou digitalizace, aby se do budoucna usnadnilo meziresortní sdílení dat
Identifikovat a odstranit překážky. Revidovat vnitřní předpisy ministerstva, přístup právního oddělení a případně upravit zákony tak, aby bylo možné budovat moderní datovou infrastrukturu

Apendix: Doporučené zdroje

PAQ Datová politika doporučené zdroje

Seznam doporučené literatury pro

PAQ Datová politika doporučené zdroje.pdf

149 KB

Citovaná literatura

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.

Andrich, D., & Marais, I. (2019). Equating—Linking Instruments Through Common Items. 137–148. https://doi.org/10.1007/978-981-13-7496-8_11

Avvisati, F. (2020). The measure of socio-economic status in PISA: A review and some suggested improvements. Large-Scale Assessments in Education, 8(1), 8. https://doi.org/10.1186/s40536-020-00086-x

Baird, J., & Black, P. (2013). Test theories, educational priorities and reliability of public examinations in England. https://doi.org/10.1080/02671522.2012.754224

Baird, J.-A. (2007). Alternative Conceptions of Comparability. In Techniques for monitoring the comparability of examination standards. Gov.uk. https://www.gov.uk/government/publications/techniques-for-monitoring-the-comparability-of-examination-standards

Black, P. (1997). Testing: Friend or Foe?: Theory and Practice of Assessment and Testing. RoutledgeFalmer, Taylor & Francis Group.

Broome, A., Homolar, A., & Kranke, M. (2018). Bad science: International organizations and the indirect power of global benchmarking. European Journal of International Relations, 24(3), 514–539. https://doi.org/10.1177/1354066117719320

Goldstein, H. (2017). Measurement and Evaluation Issues With PISA. In The PISA Effect on Global Educational Governance. Routledge.

Grek, S. (2009). Governing by numbers: The PISA ‘effect’ in Europe. Journal of Education Policy, 24(1), 23–37. https://doi.org/10.1080/02680930802412669

Haelermans, C., Huijgen, T. G., Jacobs, M., Levels, M., van der Velden, R., van Vugt, L., & van Wetten, S. (2020). Using Data to Advance Educational Research, Policy, and Practice: Design, Content, and Research Potential of the Netherlands Cohort Study on Education. European Sociological Review. https://doi.org/10.1093/ESR/JCAA027

Isaacs, T. (Ed.). (2013). Key concepts in educational assessment (Online-Ausg). SAGE.

Kane, M. T. (2013). Validating the Interpretations and Uses of Test Scores. Journal of Educational Measurement, 50(1), 1–73. https://doi.org/10.1111/jedm.12000

Kreiner, S., & Christensen, K. B. (2014). Analyses of Model Fit and Robustness. A New Look at the PISA Scaling Model Underlying Ranking of Countries According to Reading Literacy. Psychometrika, 79(2), 210–231. https://doi.org/10.1007/s11336-013-9347-z

LeRoy, B. W., Samuel, P., Deluca, M., & Evans, P. (2019). Students with special educational needs within PISA. Assessment in Education: Principles, Policy & Practice, 26(4), 386–396. https://doi.org/10.1080/0969594X.2017.1421523

Lu, Y., & Sireci, S. G. (2007). Validity issues in test speededness. Educational Measurement: Issues and Practice, 26(4), 29–37. https://doi.org/10.1111/j.1745-3992.2007.00106.x

Newton, P. E. (2007). Clarifying the purposes of educational assessment. Assessment in Education: Principles, Policy & Practice, 14(2), 149–170. https://doi.org/10.1080/09695940701478321

Newton, P. E. (2012). Validity, Purpose and the Recycling of Results from Educational Assessments. 264–276.

Newton, P. E. (2017). There Is More to Educational Measurement Than Measuring: The Importance of Embracing Purpose Pluralism. Educational Measurement: Issues and Practice, 36(2), 5–15. https://doi.org/10.1111/emip.12146

Newton, P. E., & Shaw, S. D. (2014). Validity in educational & psychological assessment.

Reinhart, A., Evans, C., Luby, A., Orellana, J., Meyer, M., Wieczorek, J., Elliott, P., Burckhardt, P., & Nugent, R. (2022). Think-Aloud Interviews: A Tool for Exploring Student Statistical Reasoning. Journal of Statistics and Data Science Education, 30(2), 100–113. https://doi.org/10.1080/26939169.2022.2063209

Rutkowski, D., & Rutkowski, L. (2013). Measuring Socioeconomic Background in PISA: One Size Might not Fit all. Research in Comparative and International Education, 8(3), 259–278. https://doi.org/10.2304/rcie.2013.8.3.259

Rutkowski, L., & Rutkowski, D. (2016). A Call for a More Measured Approach to Reporting and Interpreting PISA Results. Educational Researcher, 45(4), 252–257. https://doi.org/10.3102/0013189X16649961

Santiago, P., Gilmore, A., Nusche, D., & Sammons, P. (2012). OECD Reviews of Evaluation and Assessment in Education: Czech Republic 2012. OECD. https://doi.org/10.1787/9789264116788-en

Sellar, S., & Lingard, B. (2014). The OECD and the expansion of PISA: New global modes of governance in education. British Educational Research Journal, 40(6), 917–936. https://doi.org/10.1002/berj.3120

Stobart, G. (2008). Testing times: The uses and abuses of assessment. Routledge. https://doi.org/10.4324/9780203930502

van Wyk, C., & Crouch, L. (2020). Efficiency and Effectiveness in Choosing and Using an EMIS. UNESCO Institute for Statistics. https://unesdoc.unesco.org/ark:/48223/pf0000374582

Yu, C. H. (2020). Objective Measurement: How Rasch Modeling Can Simplify and Enhance Your Assessment. In M. S. Khine (Ed.), Rasch Measurement: Applications in Quantitative Educational Research (s. 47–73). Springer. https://doi.org/10.1007/978-981-15-1800-3_4