Statistika: Modus, Medián a Aritmetický Průměr v Praxi

Při popisu dat se často setkáváme s pojmem "průměr". Je však důležité rozlišovat mezi různými typy středních hodnot, jako jsou aritmetický průměr, medián a modus. Každý z nich nám o datech může říci něco jiného a jejich nesprávné použití může vést k zavádějícím závěrům.

Běžně se používá slovo "průměr", ale když se neuvede, o jaký průměr se jedná (aritmetický, geometrický atp.), neznamená to slovo nic konkrétního. Je to trik, který se běžně používá, někdy bezelstně, ale častěji záměrně. Ten trik používají lidé, kteří chtějí ovlivnit veřejné mínění nebo prodat reklamní prostor. Když vám řeknou, že je něco průměrně takové nebo onaké, vlastně o tom stále ještě nic moc nevíte, pokud nemůžete zjistit, o který z běžných typů střední hodnoty se jedná - zda o aritmetický průměr, medián nebo modus.

Aritmetický průměr

Aritmetický průměr získáte tak, že sečtete všechny hodnoty a vydělíte je jejich počtem. Je to nejčastěji používaný typ průměru. V situacích, kdy se hodnoty v datech od sebe příliš neliší, je aritmetický průměr výstižný. Statistik v takovém případě mluví o rovnoměrném rozložení hodnot kolem průměru.

Příkladem, kde je aritmetický průměr vhodný, je měření vlastností lidského těla, jako je výška. Pokud se nakreslí křivka znázorňující tyto hodnoty, bude mít tvar zvonu a aritmetický průměr, medián i modus budou na tomto grafu ve stejném bodě. V takovém případě je k popisu výšky lidí jeden typ střední hodnoty stejně dobrý, jako kterýkoliv jiný.

Nicméně, u dat, kde se vyskytují extrémní hodnoty (tzv. odlehlé hodnoty), může být aritmetický průměr zavádějící. Těch 15.000 dolarů, které jsem použil, když jsem chtěl mít velké číslo, byl aritmetický průměr příjmů všech rodin v dané lokalitě. Získáte ho tak, že sečtete všechny příjmy a vydělíte je jejich počtem.

V lokalitě, kde jsem vám prodal tu nemovitost, jsou obě střední hodnoty obzvlášť vzdálené, protože rozdělení je silně nerovnoměrné. Možná, že většina vašich sousedů jsou malí farmáři nebo pracují ve mzdě v nedaleké vesnici nebo jsou to postarší důchodci. Ale tři z majitelů jsou milionáři, kteří zde mají letní sídlo, a tito tři nafouknou celkový součet příjmů, a tedy i aritmetický průměr, který se z něj vypočítá. Oni zvýší aritmetický průměr tak, že je větší než příjem kohokoliv jiného v celé té lokalitě.

Tady vidíte naprosto reálnou situaci, která vypadá jako vtip nebo jako slovní hříčka: Téměř každý je pod průměrem.

Když se dočtete, že průměrná výška lidí v nějakém domorodém primitivním kmenu je jenom pět stop, máte o vzrůstu těch lidí celkem jasnou představu. Nemusíte se ptát, jestli ten průměr je aritmetický, medián nebo modus. Vyšlo by to na stejno.

Aritmetický průměr bude dosti vzdálený od mediánu, pokud je rozložení dat sešikmené. Místo aby byla tato křivka symetrická jako zvon, bude sešikmená. Bude mít tvar asi jako dětská skluzavka: Žebříček bude stoupat strmě k vrcholu a vlastní skluzavka bude postupně klesat dolů.

Americká ocelářská společnost jednou sdělila, že průměrná týdenní mzda jejich zaměstnanců vzrostla mezi roky 1940 a 1948 o 107 procent. Tak to také bylo - ale tenhleten nádherný růst ztratí trochu svého lesku, když zjistíte, že údaj z roku 1940 zahrnoval daleko větší počet zaměstnanců na částečný úvazek. Když pracujete jeden rok na poloviční úvazek a další rok na plný úvazek, váš příjem se sice zdvojnásobí, ale o vaší hodinové mzdě to neříká vůbec nic.

Průměrná mzda nebo plat ….. 2.806,45 dolarů

Průměrný zisk majitelů …. 5.000 dolarů

Je to dost primitivní, neboť jsme potřebovali zjednodušený příklad, ale není to nic proti tomu, co se dělá pod rouškou účetnictví. Když vezmete celou korporaci s hierarchiemi zaměstnanců od začínajících písařek až po prezidenta, který má bonusy v řádu několika set tisíc dolarů, tak se tímto způsobem dají schovat všechny možné věci.

Medián

Medián je prostřední hodnota. Medián znamená, že přesně polovina dotčených domácností má víc než danou hodnotu ročně a polovina má míň. Získáme ho tak, že seřadíme všechny hodnoty vzestupně podle velikosti a vybereme tu, která leží uprostřed. Medián tedy rozděluje celý soubor na dvě poloviny o stejném počtu prvků.

To menší číslo je medián, čili prostřední hodnota. Medián znamená, že přesně polovina dotčených domácností má víc než 3.500 dolarů ročně a polovina má míň.

V novinách jste si mohli přečíst, že příjem průměrné americké rodiny byl za rok 1949 na úrovni 3.100 dolarů. Z takového čísla byste se neměli pokoušet cokoliv vyvozovat, dokud nebudete vědět, co znamenalo slovo "rodina" a také, jak byla určena "průměrná rodina. Faktem je, že toto číslo pochází ze Statistického úřadu USA. Když si vezmete zprávu tohoto Úřadu, nebude pro vás těžké najít zde hned i zbytek té informace, který potřebujete: v daném případě se jedná o medián; "rodina" znamená dvě a více osob ve vzájemném vztahu, žijících společně.

Kdyby byly do celku zahrnuty i osoby žijící samostatně, medián by klesl na 2.700 dolarů, což je dost velký rozdíl.

Když se začtete dál do tabulek a k nim připojených informací, tak se dozvíte, že toto číslo je založeno na tak velikém vzorku, že s pravděpodobností devatenáct ku dvaceti je tento odhad - 3.107 dolarů před zaokrouhlením - správný v rozmezí plus/mínus 59 dolarů.

Když se přidá tato pravděpodobnost a rozmezí, dává to dohromady docela kvalitní odhad.

Lidé ze Statistického úřadu mají dostatečné schopnosti i dost peněz, aby dotáhli své analýzy, prováděné na vzorcích, k poctivé míře přesnosti.

Je to úplně stejné, jako s průměrným příjmem zaměstnanců - vysoké, byť ojedinělé hodnoty, posunou průměr výš, často mimo běžnou realitu. Průměr se pak nemusí rovnat žádnému z naměřených údajů a může být od všech hodnot dosti vzdálen.

V tomto ohledu zaznívají ostatně výhrady například k průměrné mzdě v ČR, zjišťované jako aritmetický průměr. V roce 2020 to bylo 38.527 Kč, ale na tuto úroveň nedosáhlo 63 procent zaměstnanců. Medián mezd v daném období dosáhl 33.256 Kč. I když rozdíl není dramatický, medián charakterizuje běžnou úroveň příjmu v ČR výstižněji a ČSÚ jej už řadu let zjišťuje a zveřejňuje.

Když vám řeknou, že je něco průměrně takové nebo onaké, vlastně o tom stále ještě nic moc nevíte, pokud nemůžete zjistit, o který z běžných typů střední hodnoty se jedná - zda o aritmetický průměr, medián nebo modus.

Průměrná mzda zaměstnanců … 2.200 dolarů

Průměrná mzda a zisk majitelů … 26.000 dolarů.

To vypadá dost hrozně, co?

Když se dočtete, že průměrná výška lidí v nějakém domorodém primitivním kmenu je jenom pět stop, máte o vzrůstu těch lidí celkem jasnou představu. Nemusíte se ptát, jestli ten průměr je aritmetický, medián nebo modus. Vyšlo by to na stejno.

O nových předplatitelích se tu říká, že „Jejich střední věk, medián, je 34 let a jejich průměrný příjem na rodinu je 7.270 dolarů ročně.“ Dřívejší přehled „starých čtenářů časopisu Time“ zjistil, že jejich „věkový medián byl 41 let. … Průměrný příjem byl 9.535 dolarů …“

Pokud bude uvedeno, že se jedná o medián, dozvíte se cosi podstatného: Totiž, že polovina zaměstnanců vydělává víc a polovina vydělává míň.

Kdyby bylo uvedeno, že medián je 3.000 dolarů, věděli bychom okamžitě, že polovina lidí dostává víc než 3.000 dolarů a polovina dostává méně.

Když se podíváte na údaje o příjmech, zjistili byste, že se pohybují od malých částek až někam k 50.000 dolarů a našli byste i několik hodně vysokých příjmů. Více než 95% všech těchto příjmů bude pod 10.000 dolarů a budou umístěné na levé straně křivky.

Medián je prostřední hodnota a získáme ji tak, že objekty seřadíme vzestupně podle velikosti a vybereme tu, která leží uprostřed.

Median i modus by ve druhém případě byly rovny 1 - což převažující kojenecký charakter skupiny odráží podstatně lépe.

Modus

Modus je ta hodnota, která se v určité řadě vyskytuje nejčastěji. Pokud by v dané lokalitě bylo více rodin s příjmem 5.000 dolarů ročně než rodin z jiným příjmem, 5.000 dolarů ročně by byl modus, tedy modální (nejčastější) příjem.

Modus by však odhalil daleko víc: kdyby byl modus řekněme 2.000 dolarů, věděli bychom, že toto je běžná úroveň roční mzdy v daném odvětví.

Modus je ta hodnota, která se v souboru vyskytuje nejčastěji.

V prvním případě je průměrný věk dětské skupinky 3 roky. Určitě ale cítíme, že toto číslo charakterizuje jakžtakž pouze první skupinku, kdežto ve druhé ani žádné tříleté dítě není. Zcela jasně převládají miminka.

Kdy jsou střední hodnoty podobné a kdy se liší?

Různé typy středních hodnot vám vyjdou podobně, když pracujete s takovými daty, jejichž rozložení v populaci se - řečeno jazykem statistiků - blíží normálnímu rozdělení. Typickým příkladem jsou vlastnosti lidského těla. Když nakreslíte křivku, která tyto hodnoty znázorní, bude mít tvar zvonu a aritmetický průměr, medián i modus budou na tomto grafu ve stejném bodě.

U některých typů informací vycházejí všechny typy středních hodnot tak blízko sebe, že pro běžné účely není zásadně nutné mezi nimi rozlišovat.

V daném případě a stejně tak v mnoha dalších, kdy se mluví o příjmech, je jakýsi blíže nespecifikovaný "průměr" prakticky k ničemu. Pro popis jejich peněženek už to neplatí.

Kdy si dávat pozor na "průměr"?

Když vám někdo prezentuje statistická data, je důležité se ptát: Průměr čeho? Kdo je do toho zahrnutý? Je to aritmetický průměr, medián nebo modus?

Můj trik spočíval v tom, že jsem pokaždé použil jiný typ střední hodnoty.

Proto je k popisu výšky lidí jeden typ střední hodnoty stejně dobrý, jako kterýkoliv jiný, ale pro popis jejich peněženek už to neplatí.

Když se začtete dál do tabulek a k nim připojených informací, tak se dozvíte, že toto číslo je založeno na tak velikém vzorku, že s pravděpodobností devatenáct ku dvaceti je tento odhad - 3.107 dolarů před zaokrouhlením - správný v rozmezí plus/mínus 59 dolarů.

Přirozenou otázkou je: Proč, když v otázce věku je pokaždé použit medián, se typ střední hodnoty u příjmů důsledně neuvádí. Je to snad z toho důvodu, že byl použit aritmetický průměr, protože je vyšší a prezentuje tedy inzerentům bohatší čtenáře?

Můžete se také vrátit k 1. kapitole a vyzkoušet si hru "Řekni-mi-jaký-typ-průměru-jsi". Zamyslete se z tohoto hlediska nad údajnou prosperitou absolventů Yale z ročníku 1924, jak je citovaná v úvodu.

Konec konců, jaké problémy mohou být spojené s průměrem dobře vystihuje starý statistický bonmot: v průměru se nejlépe cítí člověk, když má hlavu v horké troubě a nohy v mrazáku - nebo naopak.

Vždy, když se setkáme s pojmem "průměr", měli bychom si položit otázku, o jaký průměr se jedná a jaké údaje za ním stojí. Pojmy jako "průměrný Čech" nebo "průměrná cena bytu", mohou být hodně zavádějící.

Takže - když čtete zprávu vedení nějaké společnosti nebo majitele podniku o tom, že průměrný plat lidí v té firmě je tolik a tolik, tak to číslo nemusí říkat o platech v dané firmě téměř nic.

Pokud je to ale aritmetický průměr (a dejte na mě, že když neuvedou, o jaký průměr se jedná, bude to právě průměr aritmetický), nedostáváte nic objevnějšího než průměr z jednoho příjmu ve výši třeba 45.000 dolarů - což je příjem majitele - a z mezd nějakého počtu podhodnocených dělníků.

"Průměrná roční mzda 5.700 dolarů" v sobě může skrývat jak mzdy ve výši 2.000 dolarů, tak i zisk majitele, inkasovaný formou obrovské prémie.

Šéf si možná libuje v tom, že prezentuje situaci jako "průměrnou mzdu 5.700 dolarů" - a využívá k tomu onen klamavý aritmetický průměr.

Nu a samozřejmě medián by vypovídal o situaci daleko lépe než jakékoliv jiné jednotlivé číslo.

Jak se to dá využít v situacích, kdy čím jsou čísla horší, tím lépe pro vás, je dobře vidět ve výkazech některých společnbostí.

Vezměte 30.000 dolarů ze zisku a rozdělte tuto částku mezi partnery rovným dílem jako prémie k jejich mzdám. Když teď mzdy zprůměrujete, zahrnete do nich i sebe a své partnery. A určitě použijte aritmetický průměr.

Aha! Už to vypadá líp, že?

Dalo by se to sice udělat ještě líp, ale už to vypadá docela slušně.

Z celkového objemu peněz, určených na mzdy a zisk šlo do zisku méně než šest procent.

Máte-li chuť, tak můžete uvést i to. Každopádně jste teď dostal čísla, která můžete zveřejnit, vyvěsit na nástěnku nebo použít při vyjednávání.

Takže - když vidíte čísla průměrných mezd, nejprve se ptejte: Průměr čeho? Kdo je do toho zahrnutý?

Když pracujete jeden rok na poloviční úvazek a další rok na plný úvazek, váš příjem se sice zdvojnásobí, ale o vaší hodinové mzdě to neříká vůbec nic.

Z takového čísla byste se neměli pokoušet cokoliv vyvozovat, dokud nebudete vědět, co znamenalo slovo "rodina" a také, jak byla určena "průměrná rodina. (A kdo to říká a jak to ví a jak přesné to číslo je.)

Lidé ze Statistického úřadu mají dostatečné schopnosti i dost peněz, aby dotáhli své analýzy, prováděné na vzorcích, k poctivé míře přesnosti. Zřejmě také nevnímají žádné konkrétní hrany, které by museli obrušovat.

Ne všechna čísla, se kterými se setkáváte, se rodí za tak příznivých okolností a ani nejsou všechna doprovázena nějakými informacemi, které by ukazovaly, jak přesná či nepřesná mohou být. Probereme si to v jiné kapitole.

Mezitím byste si možná rádi vyzkoušeli svou podezíravost na některých údajích, převzatých z článku "Slovo vydavatele" v časopise Time.

MATURITA Z MATIKY - 9. ŘEŠENÝ PŘÍKLAD - Statistika - Modus a Medián

Když charakterizujeme nějakou skupinu lidí nebo jakýchkoliv jiných objektů (statistik této skupině neřekne jinak než statistický soubor) z hlediska určité měřitelné vlastnosti (věk, váha, výška, doba trvání, příjem, délka trasy - statistik hovoří o statistickém znaku), setkáváme se většinou s průměrem a konkrétně máme na mysli průměr aritmetický (součet hodnot, dělený jejich počtem). Tento průměr je ale jen jednou z tzv. středních hodnot, které se používají k souhrnné charakteristice úrovně nějaké vlastnosti v souboru.

Je výstižný v tom případě, kdy se hodnoty dané vlastnosti (znaku) u jednotlivých prvků statistického souboru od sebe příliš neliší. Statistik v takovém případě mluví o rovnoměrném rozložení hodnot kolem průměru.

Jsou-li však některé hodnoty od ostatních příliš odlišné, může být průměr zavádějící a soubor příliš výstižně necharakterizuje. V mnoha případech je lepší použít jinou "míru polohy, resp. jinou "střední hodnotu". V úvahu přichází medián nebo modus.

Ukažme si to na jednoduchém příkladu dvou skupinek po 5 dětech (i to mohou být statistické soubory). První skupinka je tvořena dětmi ve věku 2, 2, 3, 4 a 4 roky, ve druhé jsou čtyři roční děti a jedno 11leté dítě. Představme si v prvním případě miniškolku, ve druhém dva kočárky s ročními dvojčátky, která daly maminky na chvilku pohlídat staršímu sourozenci.

V obou případech je průměrný věk dětské skupinky 3 roky. Určitě ale cítíme, že toto číslo charakterizuje jakžtakž pouze první skupinku, kdežto ve druhé ani žádné tříleté dítě není. Zcela jasně převládají miminka.

Grafické znázornění normálního rozdělení

V roce 2020 to bylo 38.527 Kč, ale na tuto úroveň nedosáhlo 63 procent zaměstnanců. Medián mezd v daném období dosáhl 33.256 Kč.

Ilustrace dat s odlehlými hodnotami

tags: #pedagogicka #fakulta #statistika #modus #median