Lineární diskriminační analýza: Tajemství efektivního rozlišení objektů odhaleno!

Diskriminační analýza (DA) je jednou z metod mnohorozměrné statistické analýzy, která slouží k rozlišení objektů pocházejících z konečného počtu tříd na základě jejich znaků. Cílem je sestavit rozhodovací pravidlo, které následně umožní klasifikovat nové objekty do předem definovaných tříd. Objekty mohou představovat osoby, zvířata, rostliny, digitální fotografie a další. Každý objekt je charakterizován souborem znaků, které na něm můžeme pozorovat. Předpokládá se, že objekty patřící do stejné třídy vykazují podobné znaky.

DA úzce souvisí s dalšími metodami mnohorozměrné statistické analýzy, jako jsou shluková analýza, faktorová analýza (zejména analýza hlavních komponent) a v molekulární biologii se využívá kombinace analýz PCA a DA jako tzv. DAPC (diskriminační analýza hlavních komponent). DA dále souvisí s lineární a logistickou regresí.

Metoda byla poprvé použita v roce 1936 k rozlišení druhů rostlin kosatců na základě čtyř pozorovaných znaků. Zpočátku se DA uplatňovala v biologii, medicíně a antropologii. S rozvojem výpočetní techniky, která umožnila efektivní zpracování velkého množství dat, se její využití rozšířilo do mnoha dalších oborů. V současnosti nachází DA uplatnění v lékařství pro stanovení diagnóz a identifikaci rizikových skupin pacientů, v numerické taxonomii (fenetice) pro klasifikaci rostlin a živočichů, v rozpoznávání tváří a obecně v rozpoznávání tvarů, a také v kybernetice.

Princip diskriminační analýzy

Diskriminační analýzu používáme v situaci, kdy chceme rozlišit objekty pocházející z disjunktních tříd (tedy každý objekt patří právě do jedné třídy) pouze na základě zvolených znaků. Soubor znaků pozorovaných na jednom objektu je reprezentován jako n-rozměrný reálný vektor. Předpokládá se, že znaky pozorované na objektech ze stejné třídy respektují stejné pravděpodobnostní rozdělení. Hustota pravděpodobnosti rozdělení znaků ve všech třídách se obvykle předpokládá.

Ideálním rozhodovacím pravidlem je takové, které objekty zařazuje do tříd, z nichž skutečně pocházejí. V praxi to však není vždy možné. Některé vektory znaků mohou mít vlastnost, že se s významnou pravděpodobností vyskytují u objektů z více než jedné třídy. V takových případech nelze jednoznačně určit, do které třídy objekt patří.

V diskriminační analýze se na základě znaků pozorovaných na objektech v tzv. trénovací množině sestavuje rozhodovací pravidlo pro klasifikaci zbývajících objektů. Trénovací množina obsahuje objekty, u kterých je známo, do které třídy patří. Přesné zařazení všech objektů bývá často příliš nákladné nebo časově náročné.

Deterministické rozhodovací pravidlo je speciálním případem znáhodněného pravidla. Znáhodněné rozhodovací pravidlo může například poskytnout informaci o pravděpodobnosti, s jakou subjekt trpí určitou chorobou.

Důležitým aspektem DA je odhad spolehlivosti výsledné klasifikace.

Aplikace diskriminační analýzy

V medicíně se DA využívá ke stanovení diagnózy na základě testů. Jako trénovací množina slouží skupina pacientů s již diagnostikovanými chorobami a zdraví jedinci. Na základě výsledků série testů se sestaví pravidlo pro určení diagnózy dalších osob. Znáhodněné rozhodovací pravidlo poskytne informaci o pravděpodobnosti onemocnění.

V bankovnictví může DA sloužit k rozhodnutí o přidělení úvěru. Klienti jsou rozděleni do tříd podle spolehlivosti splácení. Banka eviduje znaky jako druh zaměstnání či výši platu pro každého klienta. Na základě těchto znaků se pak rozhoduje o riziku nesplacení úvěru.

Podobně se může škola rozhodovat o přijetí či nepřijetí studenta na základě jeho studijních výsledků a dalších charakteristik.

Metody diskriminační analýzy

Jedním z přístupů je Bayesovo kritérium, které zohledňuje apriorní pravděpodobnosti tříd. Cílem je převést úlohu výběru třídy na srovnávání skórů jednotlivých tříd pro daný znak.

Fisherova lineární diskriminační analýza spočívá v nalezení takové lineární transformace vektoru znaků, při které se maximalizuje poměr součtu čtverců mezi třídami ku součtu čtverců uvnitř tříd. Tento poměr je analogií poměru signálu k šumu.

Ilustrace principu Fisherovy lineární diskriminační analýzy s projekcí dat do jednorozměrného prostoru.

Wilksovo lambda je testová statistika používaná v mnohorozměrné analýze rozptylu. Nižší hodnoty Wilksova lambda znamenají spolehlivější výsledek diskriminační části DA.

V situaci, kdy nemáme apriorní informace o rozděleních znaků, lze použít neparametrické metody odhadu hustot, jako je jádrový odhad hustot.

Kvadratická diskriminační analýza předpokládá, že rozdělení znaků v jednotlivých třídách jsou regulární n-rozměrná normální rozdělení. Hranice mezi třídami jsou v tomto případě kvadriky.

Lineární diskriminační analýza je speciálním případem kvadratické DA, kde se navíc předpokládá, že normální rozdělení v jednotlivých třídách mají stejnou kovarianční strukturu. Hranice mezi třídami jsou pak lineární.

Ilustrace rozhodovacího pravidla pro lineární diskriminační analýzu s barevně rozlišenými oblastmi pro různé třídy.

Regularizovaná diskriminační analýza je kombinací LDA a QDA, kde se optimalizuje kombinace rozptylových matic.

Výsledky a interpretace

Výsledkem diskriminační části DA jsou odhady příslušných pravděpodobností. Na diagonále matice výsledků jsou odhady pravděpodobností správné klasifikace pro jednotlivé třídy. Stopa matice udává optimistický odhad celkové pravděpodobnosti správného zařazení náhodně zvoleného prvku.

Discriminant Analysis

Při klasifikaci nového objektu se vypočítá jeho projekce do diskriminačního prostoru a porovná se s hraničními hodnotami pro jednotlivé třídy.

Projekce centroidů do 1-D prostoru lze vypočítat jako vážený součet vektorů, kde váhový vektor udává směr projekce. Vzdálenost mezi centroidy a variabilita uvnitř skupin jsou klíčové pro maximalizaci separace tříd.

Lineární diskriminační analýza je jednou z metod pro lineární klasifikaci dat, která se snaží transformovat data tak, aby od sebe maximálně oddělila jednotlivé třídy.

tags: #linearni #diskriminacni #analyza #uhk

Princip diskriminační analýzy

Aplikace diskriminační analýzy

Metody diskriminační analýzy

Výsledky a interpretace

Discriminant Analysis

Oblíbené příspěvky: