Revoluční Centrum Zpracování Přirozeného Jazyka na Masarykově Univerzitě, které Mění Budoucnost AI!

Centrum zpracování přirozeného jazyka (NLP Centrum) na Fakultě informatiky Masarykovy univerzity je zaměřeno na získání teoretických i aplikovaných výsledků v oblasti zpracování přirozeného jazyka (natural language processing, NLP).

Zpracování přirozeného jazyka se typicky realizuje v několika rovinách: od signálu (text, řeč), přes zpracování na úrovni slov (morfologická rovina), vět (syntaktická rovina) až po reprezentaci významu (sémantická rovina) a rovinu užití v kontextu reálného světa (pragmatická rovina).

Klíčové oblasti výzkumu a aplikací

NLP Centrum se zabývá především:

Velkými jazykovými modely (large language models, LLMs), jejich trénováním a aplikacemi s textovými a multimodálními daty.
Vytvářením a správou textových korpusů.
Reprezentací znalostí, například reprezentací významu výrazů přirozeného jazyka pomocí lexikálních databází.
Aplikací NLP technik v oblasti komunikace člověk-stroj a internetových technologií s cílem analýzy, těžby a generování textu a řeči.

Ilustrace principů zpracování přirozeného jazyka

Vzdělávací činnost a studentské příležitosti

Jedním z hlavních cílů NLP Centra je nabídnout zajímavé výzkumné příležitosti jak pro pregraduální, tak pro postgraduální studenty a školit je v novém oboru jazykového inženýrství.

NLP Centrum nabízí dlouhodobější pozice (1-3 roky) v rámci výzkumných a vývojových projektů pro doktorské a magisterské studenty s plánem postgraduálního studia. Ohodnocení je formou stipendií nebo částečných úvazků, představuje přitom výrazné navýšení standardního doktorského stipendia na Fakultě informatiky MU.

V podzimním semestru bylo vypsáno nové předměty pro zájemce o zpracování přirozeného jazyka. V předmětu se vystřídá několik přednášejících, každý přiblíží techniky používané v určité oblasti zpracování přirozeného jazyka s ohledem na současné nejnovější výsledky.

Nabízené kurzy:

PA153 Počítačové zpracování přirozeného jazyka (Pavel Rychlý) - Pokročilý kurz se věnuje podrobněji všem rovinám zpracování přirozeného jazyka.
IB047 Úvod do korpusové lingvistiky a počítačové lexikografie (Pavel Rychlý) - Základní kurz práce s textovými korpusy z pohledu uživatele (lingvisty či lexikografa) i informatika.
IV029 Logická analýza přirozeného jazyka (Marie Duží) - Kurz se zaměřuje na reprezentaci významu pomocí konstrukcí transparentní intenzionální logiky.
PLIN037 Sémantika a počítače (Zuzana Nevěřilová) - Navazující kurz, který se zabývá minulými i současnými metodami zpracování textů s důrazem na uchopení jejich významu.
PLIN041 Vývoj počítačové lingvistiky (Dana Hlaváčková) - Kurz poskytuje přehled vývoje počítačové lingvistiky od 50. let.
PLIN064 Úvod do Digital Humanities (Zuzana Nevěřilová) - Kurz zabývající se zpracováním digitálních artefaktů z pohledu humanitního vědce. Náplní kurzu je problematika sběru dat, formátu dat, digitalizace, textové zpracování pomocí nástrojů NLP, práce se vzdálenými službami. Praktická část zahrnuje práci s připravenými Jupyter notebooky.

Kurz NLP in Practice změnil svůj kód z IA161 na IV161.

Výzkumné projekty a úspěchy

Zpracování češtiny věnujeme v Centru zpracování přirozeného jazyka značnou pozornost.

Jako každý rok, i tentokrát jsme s Karlem byli ve VIDA. Karel Pepper navštívil Robotiádu a Robo-sobotu ve VIDA.

Karel Pepper (i ostatní Pepper roboti) má zápis v Guinessově knize rekordů jako první masově vyráběný humanoidní robot. Gratulujeme!

NLP Centrum také vyvíjí pedagogickou činnost, jejímž cílem je na základě zmíněného výzkumu vyškolit řadu postgraduálních i pregraduálních studentů.

Nový encyklopedický slovník češtiny, který vznikl ve spolupráci FF a NLP Centra, získal prestižní cenu Slovník roku 2018.

V roce 2017 přibyly nové korpusy.

NLP Centrum spustilo portál Nové české encyklopedie vyvinuté v rámci projektu FF MU.

Získali jsme grant v soutěži OSCARS.

NLP Centrum ovládli roboti!

Programování Vernier, EV3

Potřebujete pro svůj projekt používat LLM? Potřebujete pro svůj projekt výpočty s GPU a nejlépe více než jedním?

NLP Centrum vyvíjí softwarový systém podporující výzkumný projekt Family Names in Britain and Ireland (běžící na University of the West of England od roku 2010).

V roce 2013 vydalo nakladatelství MIT Press knihu Patricka Hankse s názvem Lexical Analysis: Norms and Exploitations. Patrick Hanks dříve (2006-2008) pracoval v NLP Centru na FI MU v rámci grantu Grantové agentury Akademie věd České republiky. Ve své knize Patrick Hanks nabízí široké empirické zkoumání užití a významu slov v jazyce. Kniha naplňuje potřebu lexikálně založeného, korpusově řízeného teoretického přístupu, který pomůže lidem pochopit, jak slova dohromady tvoří kolokační vzorce a konstrukce, jež vytvářejí významy.

Technické aspekty zpracování jazyka

Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je tys ve větě tys to spletl: jedno slovo nebo dvě?

Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Jeden token může mít více gramatických kategorií (např. slovo zdraví může být podstatné jméno v jednotném či množném čísle, přídavné jméno i sloveso).

Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty Neustále se ženu za lepšími výsledky je jasné, že ženu je sloveso v první osobě jednotného čísla. Pro morfologickou desambiguaci české věty je možné použít nástroj desamb.

Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky - fráze.

Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words).

Pro některé úlohy je vhodné využít lexikální databáze. V CZPJ máme český WordNet, VerbaLex, klasické české slovníky (SSČ, SSJČ, PSJČ).

Stránka je určena studentům FI se zájmem o oblast zpracování přirozeného jazyka (natural language processing).

Poměrně hodně českých textů je napsáno bez diakritiky. Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty.

Komunikace a nástroje

chat, ask, inform, discuss, give polls, ...

Testujeme implementaci nových funkcionalit, např. Translate message functionality. Můžete hledat text ve starších zprávách v místnosti kliknutím na ikonu ⓘ místnosti a hledáním v poli Search messages...

Speciální zprávy lze odesílat pomocí příkazů na lomítko - zkuste napsat / a procházet seznam. Příklady jsou popsány na stránce More Features of Matrix.

Ve výchozím nastavení jsou všichni uživatelé členy místností nlp-all a random. Jazyk místnosti není omezen.

Při testování serveru jsme narazili na problematické problémy se správným zpracováním nastavení šifrování v Matrixu (viz např. tento článek nebo toto vysvětlení), což vedlo k nedostupným zprávám.

Používáte Discord i NLP Matrix?

tags: #nlp #masarykova #univerzita